CuddleSabe-CSDN博客

翻译多模态论文导读--VQA视觉问答经典论文：（自底向上和自顶向下注意力相结合）Bottom-Up and Top-Down Attention

自顶向下视觉注意力机制被广泛应用于图像字幕生成和视觉问答任务中，使得模型可以通过微调甚至多步推理来达到深层图像理解的目的。在本篇文章中，我们提出了自底向下和自顶向下注意力相结合的机制，从而计算物体级别的注意力和显著图像区域。通过使用我们的方法，自底向上机制（基于Faster R-CNN）提出图像区域，并使用特征向量对每个区域进行表示；同时自顶向下机制用来决定特征权重。

2022-12-17 17:04:44 755

翻译多模态论文导读--VQA视觉问答经典论文：（注意力机制）Where To Look: Focus Regions for Visual Question Answering

我们提出了一种通过选择与文本相关的图像区域来学习视觉问答的模型。我们的方法通过将文本的query与图像不同区域的视觉特征映射到同一个空间并通过内积来计算它们的相关性。我们的方法在视觉问答中类似"what color"这种需要定位到确切位置和"waht room"这种进行相关区域识别的问题上的表现提高很多。我们的模型在最近发布的VQA数据集（人类标注）上进行测试。视觉问答（VQA）任务是给定问题和图片来问答相关问题。VQA在语言表征、推理、识别、常识和阅读及查数这样的具体方向上还有很多挑战。

2022-12-16 00:46:52 495

翻译多模态论文导读--VQA视觉问答经典论文：（全卷积结构）Learning to Answer Questions From Image Using ConvolutionalNeuralNetwork

在这篇文章中，我们提出了将卷积神经网络（CNN）应用于图像问答（QA）。我们提出的端到端的模型结构不仅使用CNN来学习图像和问题表示，还学习了两个模态之间的交互关系来预测答案。我们的模型由3个CNN组成：一个图像CNN用来编码图像内容；一个句子CNN来处理单词组成的问题；另有一个多模态卷积层去学习两个模态间的联合表示。我们在DAQUAR和COCO-QA数据集上进行测试，并获得了SOTA的表现。最近，在图像与语言之间的多模态学习研究工作越来越受到关注，例如图像与句子的双向检索、图像字幕生成等。

2022-12-14 22:47:02 886

翻译多模态论文导读--VQA视觉问答前沿论文：（零样本学习）CLIP Models are Few-shot Learners

CLIP在很多视觉任务上展现了非凡的零样本学习能力。在一开始，CLIP仅被当成一个强力的视觉编码器。然而，在经过大量的“图片-字幕”的有监督数据集上预训练之后，CLIP已经获得了在多模态任务上的少样本学习能力。在本篇文章中，我们展现了CLIP强大的少样本学习能力。我们首先在标准的视觉问答任务上验证了CLIP的零样本学习能力然后展现了CLIP在视觉继承（visual entailment）任务上的跨模态零样本迁移能力。然后我们提出了一种微调策略来提升其在视觉问答任务的少样本学习能力。

2022-12-13 22:20:15 2505 2

翻译多模态论文导读--VQA视觉问答经典论文：（快速实现）Simple Baseline for Visual Question Answering

我们基于词袋特征（bag-of-words）建立了一种非常简单的VQA的baseline，即将问题的单词特征与图片的CNN特征进行拼接来预测答案。其在具有挑战性的VQA数据集上与最近的基于循环神经网络的方法都性能具有可比较性。为了进一步探讨这种模型的优缺点，我们对外提供了一个可交互的web的demo并进行代码开源。将自然语言处理与计算机视觉领域结合，进行高级场景理解是最近的主要去向，如字幕生成等。这些工作的诞生主要是受到深度学习在视觉识别领域的快速发展与最近大型图像与语言数据集的诞生。

2022-12-09 15:23:41 2209 1

原创深度学习入门--锚框Anchor的生成处理及可视化（详细说明及代码实现）

还不知道如何实现目标检测任务中的锚框如何生成以及可视化吗？快来观看目前最详细的代码解刨！

2022-11-23 00:23:08 2290 1

原创 CV入门--VGG16迁移学习（猫狗分类）实战

下载VGG预训练模型修改最后分类层的参数（1000类改为2类）冻结前面的特征提取层（设置参数的）在猫狗数据集进行微调。

2022-11-19 23:36:09 4233 14

原创 NLP入门--Seq2Seq英汉翻译实战

seq2seq是序列到序列，是从一个序列生成另外一个序列。它涉及两个过程：一个是理解前一个序列，另一个是用理解到的内容来生成新的序列。至于序列所采用的模型可以是RNN，LSTM，GRU，其它序列模型等。本教程中使用GRU。

2022-11-13 12:12:11 1131 1

原创 NLP入门--Word2Vec（CBOW）实战

首先我们只关注正样本，即**pos_embedding**的含义是周边上下文的向量矩阵（行数为上下文单词数，列数为向量维度）；而**input_embedding**的含义为目标词的向量；将两者矩阵相乘后再在列维度求和，将其作为损失函数的正项，则其在反向传播时每一个上下文单词的行向量在该**in_embed层**的梯度就是目标词的行向量、**out_embed层**的梯度就是上下文的行向量的平均。即相当于**out_embed层**在训练时将目标词的行向量减去其上下文单词行向量的平均，同时将负样本的行向量加

2022-11-09 22:16:49 1576 5

原创使用柏林噪声生成游戏地图（一维和二维实现）

本教程介绍了柏林噪声的定义。并实现了一维及二维的柏林噪声，将其用于生成游戏地图。

2022-07-01 16:50:17 5172 2

原创深度学习入门--Transformer中的Decoder详解

Transformer中的Decoder详解DecoderDecoder结构Masked训练与推断实现代码Decoder在上一节中，我们学习了Encoder的结果及实现代码：Transformer中的Encoder详解：Multi-Head-Attention及Feed-Forward在这一节中，我们将学习Transformer剩余的部分：DecoderDecoder结构DecoderDecoderDecoder的结构和EncoderEncoderEncoder类似，但是相较于EncoderE

2021-05-02 02:02:05 13042 3

原创深度学习入门--Transformer中的Encoder详解：Multi-Head-Attention及Feed-Forward

Transformer中的Encoder详解：Multi-Head-Attention及Feed-ForwardSelf-AttentionSelf-Attention的由来Self-Attention的公式推导通俗解释从Self-Attention到Multi-Head-Attention如何并行化实现代码Add&Norm层实现代码Feed-Forward层实现代码Positional EncodingEncoder各模块组合Encoder代码Self-Attention2017年，谷歌提出了

2021-04-26 15:51:10 5640 1

原创深度学习入门--Transformer中的Positional Encoding详解

Transformer中的Positional Encoding详解Positional EncodingTransformer中的Positional Encoding详解为什么要有Postional EncodingEncoding的选择Postional Encoding公式推导变换实现代码编码可视化为什么要有Postional Encoding因为Self-Attention相对于传统的RNN在输入计算时没有输入先后顺序，而是采用并行化的思想来加快运算，这样Self-Attention在前一个

2021-04-26 00:19:58 5048 6

TA关注的人

qq_15534667的博客

翻译多模态论文导读--VQA视觉问答经典论文：（自底向上和自顶向下注意力相结合）Bottom-Up and Top-Down Attention

翻译多模态论文导读--VQA视觉问答经典论文：（注意力机制）Where To Look: Focus Regions for Visual Question Answering

翻译多模态论文导读--VQA视觉问答经典论文：（全卷积结构）Learning to Answer Questions From Image Using ConvolutionalNeuralNetwork

翻译多模态论文导读--VQA视觉问答前沿论文：（零样本学习）CLIP Models are Few-shot Learners

翻译多模态论文导读--VQA视觉问答经典论文：（快速实现）Simple Baseline for Visual Question Answering

原创深度学习入门--锚框Anchor的生成处理及可视化（详细说明及代码实现）

原创 CV入门--VGG16迁移学习（猫狗分类）实战

原创 NLP入门--Seq2Seq英汉翻译实战

原创 NLP入门--Word2Vec（CBOW）实战

原创使用柏林噪声生成游戏地图（一维和二维实现）

原创深度学习入门--Transformer中的Decoder详解

原创深度学习入门--Transformer中的Encoder详解：Multi-Head-Attention及Feed-Forward

原创深度学习入门--Transformer中的Positional Encoding详解

原创深度学习入门--PyTorch文字处理及Embedding

原创图像处理入门系列--使用numpy实现OTSU大津法及其改进

原创深度学习入门--使用numpy实现多元回归

人工智能CV入门Vgg16迁移学习猫狗分类实战代码及数据集

人工智能NLP词嵌入Word2Vec实战代码及数据集

人工智能NLP入门Seq2Seq英汉翻译实战代码及数据集

1,22,256,256大小的mat，如何分离为22个256*256的mat?（JAVA）

安卓程序报错，做的是调用手机摄像头并使用okhttp进行post的程序

java和andriod中的什么格式对应python中图片的bytes()？