深度学习
文章平均质量分 91
薇酱
=。=
展开
-
VALOR:视觉-语音-语言三模态sota
之前介绍了打通文本图像的里程碑之作-clip,今天来介绍下VALOR,使用到了视觉-语音-语言三方面的数据,并且在多个数据集上获得了sota的结果。原创 2023-07-22 16:37:51 · 608 阅读 · 0 评论 -
图片是如何生成的--图像生成模型(GAN、VAE、扩散模型)简介
本文简单介绍了下图像生成相关的一些模型。本来想从吴恩达的deepai课程开始写的,但是感觉还是不够简单,推荐跟着李沐学AI里的DALL·E 2,我个人觉得讲的蛮清楚的。,从28分开始讲解。原创 2023-06-24 22:49:14 · 8863 阅读 · 2 评论 -
【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT
最近OpenAI公司的ChatGPT非常火爆,虽然正式的论文还没有发布,但是按照OpenAI一贯的工作思路,基于前期工作进行相应的改造,我们可以跟着沐神一起来看看InstructGPT。大型的语言模型效果虽然很好,但是会产生很多对用户不真实的,带有种族歧视的,甚至是有害的言论。而InstructGPT则是基于GPT3,在人工反馈的数据上训练了一版有监督的模型。效果是:1.3B 参数的 InstructGPT优于175B 参数的GPT-3,可以证明,通过人工反馈进行fine-tune是个有前景的方向。原创 2023-02-08 16:00:35 · 4973 阅读 · 0 评论 -
半监督短语挖掘:autophrase是什么?
半监督短语挖掘方式autophrase介绍原创 2022-12-03 15:48:35 · 1546 阅读 · 1 评论 -
I3D (inflated 3D)是什么?
I3D是除了双流网络视频领域里的另一力作,本文主要的工作有2个方面,一方面就是这个标题名称,inflated,本文提供了一种方法将2D网络膨胀为3D网络,使得视频理解不需要再耗费心神去设计一个专门的网络了,而是可以直接使用图片预训练好的模型甚至是预训练的参数,另一方面是提出了一个Kinetics400数据集(后续还有扩充),大家可以在这个数据集做视频理解的预训练,然后迁移到其他数据集上,也能获得比较好的结果...原创 2022-06-26 20:42:12 · 7963 阅读 · 0 评论 -
双流网络是什么?
目录0.简介:1.结构:空间部分:时间部分:0.简介:双流网络是视频理解里的开山之作,为什么这么说呢?因为在之前的视频理解里,使用深度网络并没有取得很好的结果,甚至说还不如之前手工特征的效果好,而双流网络则证明了,并不是深度网络不好,而是对深度网络的使用方式不对。而双流网络的有效性同时也告诉大家,当深度网络不work的时候,可以尝试引入一些先验信息,这样可以简化任务,得到很好的效果。1.结构:作者认为,视频可以很自然地分解成空间和时间2个部分,空间部分主要是一些外原创 2022-04-05 15:02:51 · 6433 阅读 · 0 评论 -
什么是VIT?
VIT就是Vision Transformer。目录1.Transformer在视觉领域上使用的难点:2.输入序列长度的改进3.VIT对输入的改进1.Transformer在视觉领域上使用的难点在nlp中,输入transformer中的是一个序列,而在视觉领域,需要考虑如何将一个2d图片转化为一个1d的序列,最直观的想法就是将图片中的像素点输入到transformer中,但是这样会有一个问题,因为模型训练中图片的大小是224*224=50176,而正常的bert的序列长度是512,是原创 2022-02-28 12:00:00 · 30973 阅读 · 1 评论 -
什么是self-attention?
目录基本原理:相关性的判断:新向量的计算:Multi-head self-attention位置信息(Positional Encoding):推荐阅读:基本原理:I saw a saw(我看见了一个锯子)如果直接将每个单词丢进fully conneted network里,第一个saw和第二个saw得到的结果必然是一样的。那能否让fc考虑上下文信息呢?由此就引入了self-attention,自注意力机制。self-attention的输入是一堆向量,输出也..原创 2021-10-30 21:13:18 · 650 阅读 · 0 评论 -
什么是Transformer
目录Encoder:Decoder:Decoder-Autoregressivemulti-head attention VSmasked multi-head attentionDecoder-Non-AutoregressiveEncoder和Decoder联合工作Training:训练技巧优化评估指标推荐阅读:整体结构Transformer是一个Sequence to Sequence的模型,主要的结构是encoder和decoder...原创 2021-10-25 09:30:00 · 2116 阅读 · 0 评论