![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
人工智能
文章平均质量分 76
包含了强化学习、NLP、CV、多模态、大模型等内容
王大丫丫
少壮不努力,老大徒伤悲。
深度学习、人工智能、大模型、多模态
展开
-
BI-LSTM+Attention 的 tensorflow-1.14 实现
这里只是用简单例子演示关于 self-attention 的逻辑,判断一句话的情感是正面或者是负面,具体原理自己百度即可。原创 2024-07-28 07:54:54 · 408 阅读 · 0 评论 -
NLP 遇上中秋节
之前已经写过诗了,这次就换个口味,用 Seq2Seq 写写对联。那我们开始测试写藏头诗吧,主要使用了一些中秋常见的人物和话题,说实话有点人工智障的感觉,但是已经迈出了第一步了,之后可以继续完善写出诗的质量,毕竟模型也忒简单了点,就是应个景图个乐,给大家中秋助助兴。模型训练好,在用模型写诗的过程也和上面类似,每次输入上一个时刻的字以及上一个时刻的状态,来预测当前的字,知道满足结束条件,如够多少个字,或者遇到预测出句号为止。这里主要对数据的处理做简单的介绍,其他的模型搭建和训练过程套路基本不变,这里不再赘述。原创 2024-07-25 09:02:58 · 535 阅读 · 0 评论 -
Word2Vec 的 tensorflow-1.14 实现
【代码】Word2Vec 的 tensorflow-1.14 实现。原创 2024-07-19 08:20:34 · 226 阅读 · 0 评论 -
使用 LSTM 进行字符级别的文本生成
本文展示了如何使用 LSTM 模型进行字符级别的文本生成过程,整个过程如果要达到文本通顺的程度至少需要 20 个 epoch ,以及至少 1M 字符的语料库,而且由于 RNN 网络计算量巨大所以建议在 GPU 上运行此脚本。原创 2024-07-13 10:55:59 · 551 阅读 · 0 评论 -
微调 GPT-2 完成文本生成任务
我们使用kears_nlp中原生的GPT-2模型(),首先是指定我们的PROMPT是,也就是让 GPT-2 从这里开始文本生成,调用方式很简单,生成200 个token 耗时22.81 s,速度大约。另外我想尝试下中文的文本生成效果,但是找到了官方的kears_nlp可以调用的GPT-2全部都是英文数据训练出来的,我不太死心,还是想试试,所以调用,我也将PROMPT改成了我爱中国!,生成的结果简直就是乱七八糟,狗屁不通,自己把自己卡死掉了。原创 2024-03-26 18:16:56 · 708 阅读 · 0 评论 -
使用 Keras 的 Stable Diffusion 实现高性能文生图
在本文中,我们将使用基于 KerasCV 实现的模型进行图像生成,这是由stable.ai开发的文本生成图像的多模态模型。是一种功能强大的开源的文本到图像生成模型。虽然市场上存在多种开源实现可以让用户根据文本提示轻松创建图像,但 KerasCV 有一些独特的优势来加速图片生成,其中包括XLA 编译和混合精度支持等特性。所以本文除了介绍如何使用 KerasCV 内置的模块来生成图像,另外我们还通过对比展示了使用 KerasCV 特性所带来的图片加速优势。原创 2024-03-19 10:50:45 · 1165 阅读 · 0 评论 -
直观感受卷积 VAE 模型的潜在分布空间
本文展示了在MNIST数据集上训练。VAE是自动编码器的概率模型,它会将高维输入数据压缩为维度较小的表示形式,但是实现方式与将输入映射到潜在向量的传统自动编码器不同,VAE,最经典的方式莫过于高斯分布的均值和方差。这种方法会产生一个连续的、结构化的潜在空间,这对于图像生成的多样化很有用。原创 2024-03-11 09:42:59 · 1222 阅读 · 0 评论 -
有了阿里最新的 EMO 大模型,我让那英循环唱《冲动的惩罚》一百遍!
阿里终于整活了,刚刚阿里发布了一个大模型的展示页面,提出了一个名叫的大模型,一种富有表现力的音频驱动的基于人物肖像生成视频的框架。具体来讲就是,输入单个参考人物肖像图像和语音(例如讲话或者唱歌等),可以生成具有丰富的面部表情和各种头部姿势的声音头像视频,同时可以根据输入视频的长度生成任意持续时间的视频。如下示意图。只需要一张人物肖像照片,包括:现实照片、动漫照片、AI 生成的照片等等只需要一段音频,包括:演讲、唱歌、讲话等等生成符合音频内容的丰富的面部表情生成任意时长的视频。原创 2024-03-04 14:31:23 · 1196 阅读 · 0 评论 -
Stable Diffusion 3 强势来袭,从此将文字绘画出来不是难题!
Stability AI 刚发布 Stable Diffusion 3 模型进行公测。该模型采用 diffusion transformer 架构,显著提高了在多主题提示、图像质量和拼写能力方面的性能。原创 2024-02-26 14:21:35 · 876 阅读 · 0 评论 -
卷爆 Sora ,Stable Video Diffusion 免费开放!
Sora 虽然是造势很大,但是个人猜测想要公开使用大概率是卡在了算力方面,所以迟迟没有动静,网上申请了红客应用的人们也没有收到邀请内测,奥特曼也在靠几个 demo 想拉 7 万亿美元的投资实属有点异想天开了,种种不正常的表现引人遐想。而就在这个是时候 Stability.ai 最新发布了 stable video 的官网,作为一款正式公布的免费文生视频或者图生视频的工具,效果也是相当惊艳。文生视频图生视频不仅如此,还有一些控制相机运动的选项,如下图视频的风格也可以选择,如下图综上有如下特点。原创 2024-02-23 09:20:31 · 587 阅读 · 0 评论 -
通俗易懂讲解 Sora 工作原理
这位大佬用通俗易懂的方式,逐步拆解Sora工作原理,浅显易懂,推荐看看!本文为转载文章,原文请看链接。原创 2024-02-21 20:25:22 · 1130 阅读 · 0 评论 -
朝花夕拾杯中酒
马上就是龙年了,我自己用 stable diffusion 中的模型自己绘制了几个年画,祝大家新的一年。这个用到了麦橘底模和剪纸这个用到了IP DESIGN底模和春节限定【龙】原创 2024-01-24 08:53:37 · 1657 阅读 · 0 评论 -
使用 BERT 完成文本问答的答案预测任务
本文主要介绍了文本问答的实现过程,简单来说就是输入“文本+问题”,返回“答案在文本的起始索引和终止索引”。原创 2024-01-22 08:25:01 · 1749 阅读 · 0 评论 -
LSTM 模型“实现”整数相加运算
本文主要介绍了使用LSTM模型完成简单的两个整数相加的运算。原创 2024-01-18 08:28:58 · 989 阅读 · 0 评论 -
一维卷积完成文本情感分类任务
本文主要搭建经典的一维卷积神经网路模型,用于完成 IMDB 电影评论的情感分类预测任务,并在最后对模型进行了改造升级。原创 2024-01-16 08:19:31 · 658 阅读 · 0 评论 -
FNet 模型完成文本情感分类任务
本文主要介绍了使用 FNet 模型完成 IMDB 电影评论的情感分类任务,并且和传统的 Transformer 模型进行性能比较。FNet 模型的出现是为了解决传统的 Transformer 模型计算时间复杂度过高的问题。:相比于传统的自注意力机制,FNet 使用傅立叶变换来捕捉序列中的长距离依赖关系,从而提高了处理长序列的效率。:FNet 具有相对轻量级的结构,使其在处理大规模序列数据时更加高效,同时也减少了计算成本,时间复杂度从 O(n^2) 降低到了 O(nlogn)。原创 2024-01-13 09:26:12 · 1298 阅读 · 0 评论 -
leetcode 1961. Check If String Is a Prefix of Array(python
根据题意,给出了一个字符串 s ,还有一个单词列表 words ,让我们判断 s 是否是 words 的前缀字符串。题目中给出了定义判断字符串 s 是否是列表 words 的前缀,只需要判断 s 是否和 words 中的前 k 个字符串拼接起来的字符串相同即可,k 要小于 words 的长度。但是要保证不能是“伪前缀”,如 s=a ,words=[“aa”,“aaaa”,“banana”] ,这种输入应该是 False ,所以还要保证 s 的长度必须是合理的。原理一样,换汤不换药。您的支持是我最大的动力。原创 2024-01-11 08:33:20 · 358 阅读 · 0 评论 -
arXiv 论文的多标签文本分类
本文构建了一个常见的深度学习模型,实现多标签文本分类,可以根据论文摘要的文本内容预测其所属的多个主题领域标签。原创 2024-01-10 08:33:50 · 522 阅读 · 0 评论 -
图像生成系列(四)——基于残差网络和自注意力机制的 VAE
输入就算是多张图像,也只显示第一张图像,这个函数还有一个作用就是在训练模型的时候每隔一段时间展示一下模型的图像生成效果,暂停显示 2秒,并且将图像保存下来。当损失值降到 9 以下,基本效果就不错了,这里是从一开始到最后训练生成的效果图,挑选了 16 张来展示模型的进化效果,可以看出来,将动漫角色还原的很好,颜色也比较到位。,通过一系列的图像预处理操作对图像进行处理,主要包括图像尺寸的调整、图像尺寸的裁剪、图像值归一化等常规操作。中可以增强模型对全局依赖关系的学习能力,提高重建质量,并增加生成样本的多样性。原创 2024-01-09 08:29:42 · 1905 阅读 · 2 评论 -
图像生成系列(三)——Diffusion
扩散模型是一种用于图像生成的模型,其主要特点是通过逐渐扩散和迭代生成图像。有两个过程:前向扩散和反向扩散。原创 2024-01-07 09:21:09 · 2205 阅读 · 1 评论 -
图像生成系列(二)——Variational Autoencoder
Variational Autoencoder(VAE)是一种生成模型,用于学习输入数据的潜在表示并生成与原始数据相似的新样本。原创 2024-01-06 08:51:43 · 1175 阅读 · 0 评论 -
图像生成系列(一)——AutoEncoder
AutoEncoder 是一种用于数据降维和特征提取的无监督学习模型,它由一个 encoder 和一个 decoder 组成。 encoder 将输入数据转换为一个潜在空间的向量,而 decoder 将这个向量转换回输入的数据。这个模型可以学习到数据的紧凑表示,将高维的输入数据转换为低维的潜在空间向量,并且可以用于数据的压缩、去噪、特征提取等多种任务。原创 2024-01-05 09:08:35 · 1139 阅读 · 0 评论 -
使用在线 qwen-turbo 模型构建多工具的智能 agent
本文以 chatchat 项目为框架,以线上大模型 qwen-turbo 的基础构建智能 agent ,在已有知识库的基础上,如果用户提问知识库相关的内容则调用 知识库查询工具 获取相关知识进行回复。如果用户提问其他的天气相关问题,则调用 天气查询工具(前文已有详细过程,此处不再赘述)来获取相关在线信息。原创 2024-01-03 13:49:28 · 2312 阅读 · 0 评论 -
Qwen-7B-Chat 通过 Agent 获取外部天气
本文使用 Qwen-7B-Chat 大模型,通过 Agent 调用自定义工具 weathercheck 来获取实时天气状况,还能给出出行穿戴的建议哦。原创 2024-01-03 13:41:46 · 1481 阅读 · 1 评论 -
使用 chatglm3-6b 调用自定义 agent 计算两个地址的经纬度距离
本文使用最新的大模型 chatglm3-6b ,调用自定义工具计算两个地址的经纬度之间的距离。原创 2024-01-02 10:17:38 · 711 阅读 · 3 评论 -
搭建 Langchain-Chatchat 详细过程
本文参考官网和其他多方教程,将搭建 Langchain-Chatchat 的详细步骤进行了整理,供大家参考。原创 2024-01-02 10:12:42 · 5731 阅读 · 5 评论 -
多种策略提升线上 tensorflow 模型推理速度
本文以最常见的模型 Bi-LSTM-CRF 为例,总结了在实际工作中能有效提升在 CPU/GPU 上的推理速度的若干方法,包括优化模型结构,优化超参数,使用 onnx 框架等。当然如果你有充足的 GPU ,结合以上方法提升推理速度的效果将更加震撼。原创 2023-12-30 16:42:03 · 1104 阅读 · 0 评论 -
基于 Transformers 实现问答
一般来说提取式问答的模型需要非常庞大的数据来从头训练,但是使用强大的预训练基础模型开始可以将数据集大小减少多个数量级,并且能取得令人满意的效果。本文介绍的是在轻量级 BERT 模型 distilbert 模型上进行微调来完成简单的问答任务。原创 2023-12-29 10:02:01 · 912 阅读 · 0 评论 -
使用 T5 模型完成新闻摘要任务
内容摘要是自然语言处理(NLP)的核心问题之一,实现这一能目标必须让模型具备语言理解和内容生成两大能力。本文使用新闻数据,通过微调 T5 模型来完成提取新闻摘要这一任务。原创 2023-12-29 08:58:13 · 679 阅读 · 0 评论 -
使用 Deep Q-Learning 算法训练智能体玩 Breakout 游戏
本文使用 `Deep Q-learning 强化学习算法`训练智能体,并在 `BreakoutNoFrameskip-v4` 游戏中取得高分。原创 2023-12-28 18:01:37 · 1362 阅读 · 0 评论 -
使用 DDPG 算法提升 Pendulum 游戏得分
本文使用 DDPG(Deep Deterministic Policy Gradient) 强化学习算法玩 Pendulum 游戏。原创 2023-12-28 17:58:14 · 816 阅读 · 0 评论 -
LLM Agent 自动完成数据处理工作!喝着咖啡就把活干了,妙啊!
之前一直在研究 Chatchat 开源项目,并且已经把环境调试成功了,但是我一直想摸索一种全新的大模型的应用点,突发奇想有了一个关于数据处理的思路,因为单位里有很大部分工作都是数据处理工作,而数据处理工作平时都是调用各种小工具来进行的,如果我能使用 Agent 对话的形式,让同事通过对话就完成数据的处理工作岂不是美哉!说干就干!原创 2023-12-27 17:13:58 · 1012 阅读 · 0 评论 -
效果惊人!NeRF 模型渲染超逼真三维场景
传统的三维场景渲染通常依赖于手工设计的三维模型和复杂的渲染方程。相比之下,NeRF 使用神经网络,通过学习从场景中的点到颜色和密度的映射,直接从数据中学习如何渲染,并且效果惊人,NeRF 技术主要应用于计算机图形学、虚拟现实、增强现实等领域。原创 2023-12-27 17:06:56 · 984 阅读 · 0 评论 -
带你轻松理解 Transformer(下)
承上启下上文我们介绍了 Transformer 中主要的 Attention 和 Self-Attention 原理,本文将介绍如果使用它们搭建深度神经网络,具体技术细节可以查看论文。如果对基本知识不了解,可以复习上一篇文章《带你轻松理解 Transformer(上)》。Single-Head Self-Attention上文中我们介绍的 Self-Attention 输入一个序列 X ,经过三个参数矩阵 WQ、WK、WV 的计算,输出一个上下文状态特征序列 C ,这样的 Self-Attention原创 2021-06-24 16:03:48 · 218 阅读 · 1 评论 -
带你轻松理解 Transformer(上)
引言Transformer 模型内部细节很多,本文只主要讲解 Attention 部分和 Self-Attention 部分,如果感兴趣可以查看论文。什么是 TransformerTransformer 是一个 Seq2Seq 模型,很适合机器翻译任务。不了解 Seq2Seq 模型的,可以看我之前的文章 《Seq2Seq 训练和预测详解以及优化技巧》它不是循环神经网络结构,而是单纯靠 Attention 、Self-Attention 和全连接层拼接而成的网络结构。Transforme原创 2021-06-24 16:01:11 · 216 阅读 · 1 评论 -
带你轻松入门 Bert
什么是 BERTBERT 的全称是 Bidirectional Encoder Representations from Transformers ,其实 BERT 的目的就是预训练 Transformers 模型的 Encoder 网络,从而大幅度提高性能。本文没有讲具体的技术细节,只介绍主要想法。 具体内容可以看论文: https://arxiv.org/pdf/1810.04805.pdf第一个任务BERT 的第一个训练模型的任务就是,随机地遮挡一个或者多个单词,然后让模型预测遮挡的单词。具体过原创 2021-06-24 15:58:19 · 720 阅读 · 1 评论 -
结合论文轻松理解 Dropout
Dropout 是玄学?在大致拜读过 《Improving neural networks by preventing co-adaptation of feature detectors》 这篇著名的论文的之后,我才知道原来 Hinton 大神写的论文也可以这么水。这篇论文只给出了 Dropout 经过不同实验的大量测试结果,但是究其原理却是给出了三种猜测,我也是醉了,所以说这个 Dropout 理解起来并不轻松【狗头】,是个比较玄学的东西,你得细品,只可意会不可言传。实际应用当中,Dropout 用的原创 2021-06-24 15:52:40 · 422 阅读 · 1 评论 -
轻松理解 Attention 原理
Seq2Seq 的不足Seq2Seq 虽然有不少改进效果的技巧,但是其本身还有一个很大的缺陷,当输入的序列太长的时候,最后输出的状态向量 h 很难记住最开始的内容,或者某些关键的内容。如果用 Seq2Seq 做机器翻译,当输入句子的单词在 20 个附近时的效果最佳,当输入句子的单词超过 20 个的时候,效果会持续下降,这是因为 Encoder 会遗忘某些信息。而在 Seq2Seq 的基础上加入了 Attention 机制之后,在输入单词超过 20 个的时候,效果也不会下降。引入 Attention原创 2021-06-24 15:50:22 · 342 阅读 · 1 评论 -
文本生成(Text Generation)原理详解
承上启下上一篇文章我们介绍了 RNN 相关的基础知识,现在我们介绍文本生成的基本原理,主要是为了能够灵活运用 RNN 的相关知识,真实的文本生成项目在实操方面比这个要复杂,但是基本的原理是不变的,这里就是抛砖引玉了。RNN 基础知识回顾链接:https://juejin.cn/post/6972340784720773151原理我们这里用到了 RNN 来进行文本生成,其他的可以对时序数据进行建模的模型都可以拿来使用,如 LSTM 等。这里假如已经训练好一个 RNN 模型来预测下一个字符,假如我们限定了原创 2021-06-14 17:38:57 · 7375 阅读 · 2 评论 -
LSTM 和 Bi-LSTM
承上启下承接上文介绍过的 SimpleRNN ,这里介绍它的改进升级版本 LSTM。RNN 和 LSTM 比较RNN 的记忆很短,容易产生梯度消失的长依赖问题,而 LSTM 可以解决这个问题,它有更长的记忆RNN 模型比较简单,只有一个参数矩阵,但是 LSTM 比较复杂,有四个参数矩阵LSTMLong Short Term Memory ,又叫 LSTM ,本质上 LSTM 是一种特殊 RNN 模型,但是它对 RNN 模型做了大幅度的改进,可以避免梯度消失的长依赖问题。它的结构如图所示。原创 2021-06-14 17:37:39 · 4801 阅读 · 2 评论