自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 问答 (3)
  • 收藏
  • 关注

翻译 多模态论文导读--VQA视觉问答经典论文:(自底向上和自顶向下注意力相结合)Bottom-Up and Top-Down Attention

自顶向下视觉注意力机制被广泛应用于图像字幕生成和视觉问答任务中,使得模型可以通过微调甚至多步推理来达到深层图像理解的目的。在本篇文章中,我们提出了自底向下和自顶向下注意力相结合的机制,从而计算物体级别的注意力和显著图像区域。通过使用我们的方法,自底向上机制(基于Faster R-CNN)提出图像区域,并使用特征向量对每个区域进行表示;同时自顶向下机制用来决定特征权重。

2022-12-17 17:04:44 555 1

翻译 多模态论文导读--VQA视觉问答经典论文:(注意力机制)Where To Look: Focus Regions for Visual Question Answering

我们提出了一种通过选择与文本相关的图像区域来学习视觉问答的模型。我们的方法通过将文本的query与图像不同区域的视觉特征映射到同一个空间并通过内积来计算它们的相关性。我们的方法在视觉问答中类似"what color"这种需要定位到确切位置和"waht room"这种进行相关区域识别的问题上的表现提高很多。我们的模型在最近发布的VQA数据集(人类标注)上进行测试。视觉问答(VQA)任务是给定问题和图片来问答相关问题。VQA在语言表征、推理、识别、常识和阅读及查数这样的具体方向上还有很多挑战。

2022-12-16 00:46:52 323

翻译 多模态论文导读--VQA视觉问答经典论文:(全卷积结构)Learning to Answer Questions From Image Using ConvolutionalNeuralNetwork

在这篇文章中,我们提出了将卷积神经网络(CNN)应用于图像问答(QA)。我们提出的端到端的模型结构不仅使用CNN来学习图像和问题表示,还学习了两个模态之间的交互关系来预测答案。我们的模型由3个CNN组成:一个图像CNN用来编码图像内容;一个句子CNN来处理单词组成的问题;另有一个多模态卷积层去学习两个模态间的联合表示。我们在DAQUAR和COCO-QA数据集上进行测试,并获得了SOTA的表现。最近,在图像与语言之间的多模态学习研究工作越来越受到关注,例如图像与句子的双向检索、图像字幕生成等。

2022-12-14 22:47:02 650

翻译 多模态论文导读--VQA视觉问答前沿论文:(零样本学习)CLIP Models are Few-shot Learners

CLIP在很多视觉任务上展现了非凡的零样本学习能力。在一开始,CLIP仅被当成一个强力的视觉编码器。然而,在经过大量的“图片-字幕”的有监督数据集上预训练之后,CLIP已经获得了在多模态任务上的少样本学习能力。在本篇文章中,我们展现了CLIP强大的少样本学习能力。我们首先在标准的视觉问答任务上验证了CLIP的零样本学习能力然后展现了CLIP在视觉继承(visual entailment)任务上的跨模态零样本迁移能力。然后我们提出了一种微调策略来提升其在视觉问答任务的少样本学习能力。

2022-12-13 22:20:15 1776 1

翻译 多模态论文导读--VQA视觉问答经典论文:(快速实现)Simple Baseline for Visual Question Answering

我们基于词袋特征(bag-of-words)建立了一种非常简单的VQA的baseline,即将问题的单词特征与图片的CNN特征进行拼接来预测答案。其在具有挑战性的VQA数据集上与最近的基于循环神经网络的方法都性能具有可比较性。为了进一步探讨这种模型的优缺点,我们对外提供了一个可交互的web的demo并进行代码开源。将自然语言处理与计算机视觉领域结合,进行高级场景理解是最近的主要去向,如字幕生成等。这些工作的诞生主要是受到深度学习在视觉识别领域的快速发展与最近大型图像与语言数据集的诞生。

2022-12-09 15:23:41 1794 1

原创 深度学习入门--锚框Anchor的生成处理及可视化(详细说明及代码实现)

还不知道如何实现目标检测任务中的锚框如何生成以及可视化吗?快来观看目前最详细的代码解刨!

2022-11-23 00:23:08 1898 1

原创 CV入门--VGG16迁移学习(猫狗分类)实战

下载VGG预训练模型修改最后分类层的参数(1000类改为2类)冻结前面的特征提取层(设置参数的)在猫狗数据集进行微调。

2022-11-19 23:36:09 3932 14

原创 NLP入门--Seq2Seq英汉翻译实战

seq2seq是序列到序列,是从一个序列生成另外一个序列。它涉及两个过程:一个是理解前一个序列,另一个是用理解到的内容来生成新的序列。至于序列所采用的模型可以是RNN,LSTM,GRU,其它序列模型等。本教程中使用GRU。

2022-11-13 12:12:11 981 1

原创 NLP入门--Word2Vec(CBOW)实战

首先我们只关注正样本,即**pos_embedding**的含义是周边上下文的向量矩阵(行数为上下文单词数,列数为向量维度);而**input_embedding**的含义为目标词的向量;将两者矩阵相乘后再在列维度求和,将其作为损失函数的正项,则其在反向传播时每一个上下文单词的行向量在该**in_embed层**的梯度就是目标词的行向量、**out_embed层**的梯度就是上下文的行向量的平均。即相当于**out_embed层**在训练时将目标词的行向量减去其上下文单词行向量的平均,同时将负样本的行向量加

2022-11-09 22:16:49 1370 5

原创 使用柏林噪声生成游戏地图(一维和二维实现)

本教程介绍了柏林噪声的定义。并实现了一维及二维的柏林噪声,将其用于生成游戏地图。

2022-07-01 16:50:17 4340 2

原创 深度学习入门--Transformer中的Decoder详解

Transformer中的Decoder详解DecoderDecoder结构Masked训练与推断实现代码Decoder在上一节中,我们学习了Encoder的结果及实现代码:Transformer中的Encoder详解:Multi-Head-Attention及Feed-Forward在这一节中,我们将学习Transformer剩余的部分:DecoderDecoder结构DecoderDecoderDecoder的结构和EncoderEncoderEncoder类似,但是相较于EncoderE

2021-05-02 02:02:05 12414 3

原创 深度学习入门--Transformer中的Encoder详解:Multi-Head-Attention及Feed-Forward

Transformer中的Encoder详解:Multi-Head-Attention及Feed-ForwardSelf-AttentionSelf-Attention的由来Self-Attention的公式推导通俗解释从Self-Attention到Multi-Head-Attention如何并行化实现代码Add&Norm层实现代码Feed-Forward层实现代码Positional EncodingEncoder各模块组合Encoder代码Self-Attention2017年,谷歌提出了

2021-04-26 15:51:10 5217 1

原创 深度学习入门--Transformer中的Positional Encoding详解

Transformer中的Positional Encoding详解Positional EncodingTransformer中的Positional Encoding详解为什么要有Postional EncodingEncoding的选择Postional Encoding公式推导变换实现代码编码可视化为什么要有Postional Encoding因为Self-Attention相对于传统的RNN在输入计算时没有输入先后顺序,而是采用并行化的思想来加快运算,这样Self-Attention在前一个

2021-04-26 00:19:58 4670 6

原创 深度学习入门--PyTorch文字处理及Embedding

PyTorch文字处理及EmbeddingPyTorch文字处理及Embedding文字处理EmbeddingPyTorch文字处理及Embedding文字处理在深度学习中我们需要在文本处理时创立两个 Dic字典 :word2idx 以及idx2word这是以所爱隔山海,山海皆可开为例代码部分:def Word_Proccess(sentence): symbols = ',.?。,()()/*-+!!@#$¥%……^&-_ ' word2idx = {} i

2021-04-23 16:46:07 2894 2

原创 图像处理入门系列--使用numpy实现OTSU大津法及其改进

(这样的确是大多数人第一时间容易写出的代码233,但是这是python不是c语言,这样会造成运算时间的极度加长,因为python是解释型语言,在图像处理时应该少用for循环)这里采用C = 0.2126 * B + 0.7152 * G + 0.0722 * R 公式,效果比普通的求三个通道的平均值要好的多!,这里如果采用for循环,则运算会慢几十到几百倍,因此这里我们使用矩阵索引的方式来进行运算。灵活利用好numpy自身的用法,这可比for快了几十倍!

2021-01-13 00:48:59 1897

原创 深度学习入门--使用numpy实现多元回归

给定点集points(x,y),假定我们要求的回归方程为形如f(x) = w*x+b的一元一次方程形式,那么在w及b确定的情况下每一个x会对应一个估计值f(x),线性回归即为求出最合适的w和b,使得可以根据求出来的回归方程预测函数走势。先捋一下思路:假设一个变量为LOSS(损失的意思),LOSS=f(x)-y=w*x+b-y 。那么LOSS的含义便是在你求出来的回归方程下与真实方程的区别。LO...

2020-03-20 00:02:33 1341 1

人工智能CV入门Vgg16迁移学习猫狗分类实战代码及数据集

内容概要:人工智能CV入门Vgg16迁移学习猫狗分类实战代码及数据集;本内容为使用Pytorch对计算机视觉中的Vgg16迁移学习进行实战编码。本内容包含了实战教程使用的数据集及代码的jupyter notebook 能学到什么:通过此资源你可以学习到如何通过pytorch框架及python语言进行简单的计算机视觉中的Vgg16迁移学习猫狗分类算法实战,你可以对该算法有更加深入的理解,并且你也可以获得更强的实战能力。

2022-11-20

人工智能NLP入门Seq2Seq英汉翻译实战代码及数据集

内容概要:人工智能NLP英汉翻译Seq2Seq代码及数据集;本内容为使用Pytorch对自然语言处理中的Seq2Seq进行实战编码。本内容包含了实战教程使用的数据集及代码的jupyter notebook 能学到什么:通过此资源你可以学习到如何通过pytorch框架及python语言进行简单的自然语言处理中的Seq2Seq算法实战,你可以对该算法有更加深入的理解,并且你也可以获得更强的实战能力。可作为良好的毕设项目参考。

2022-11-20

人工智能NLP词嵌入Word2Vec实战代码及数据集

内容概要:人工智能NLP词嵌入Word2Vec代码及数据集;本内容为使用Pytorch对自然语言处理中的Word2Vec进行实战编码。本内容包含了实战教程使用的数据集及代码的jupyter notebook 能学到什么:通过此资源你可以学习到如何通过pytorch框架及python语言进行简单的自然语言处理中的Word2Vec算法实战,你可以对该算法有更加深入的理解,并且你也可以获得更强的实战能力。

2022-11-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除