CuddleSabe
码龄11年
关注
提问 私信
  • 博客:49,663
    社区:281
    问答:90
    动态:313
    50,347
    总访问量
  • 11
    原创
  • 736,820
    排名
  • 5,838
    粉丝
  • 57
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 目前就职: 美图
  • 加入CSDN时间: 2014-05-17
博客简介:

qq_15534667的博客

查看详细资料
个人成就
  • 获得85次点赞
  • 内容获得39次评论
  • 获得348次收藏
  • 代码片获得1,576次分享
创作历程
  • 10篇
    2022年
  • 5篇
    2021年
  • 1篇
    2020年
成就勋章
TA的专栏
  • 多模态论文导读系列
    3篇
  • 多模态入门论文系列
    2篇
  • 深度学习入门系列
    6篇
  • 图像处理入门实战系列
    1篇
  • 好玩的小东西
    1篇
  • NLP入门实战系列
    2篇
  • CV入门实战系列
    1篇
兴趣领域 设置
  • Python
    python
  • 人工智能
    opencv语音识别计算机视觉机器学习深度学习神经网络自然语言处理pytorch图像处理nlp数据分析
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

176人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

多模态论文导读--VQA视觉问答经典论文:(自底向上和自顶向下注意力相结合)Bottom-Up and Top-Down Attention

自顶向下视觉注意力机制被广泛应用于图像字幕生成和视觉问答任务中,使得模型可以通过微调甚至多步推理来达到深层图像理解的目的。在本篇文章中,我们提出了自底向下和自顶向下注意力相结合的机制,从而计算物体级别的注意力和显著图像区域。通过使用我们的方法,自底向上机制(基于Faster R-CNN)提出图像区域,并使用特征向量对每个区域进行表示;同时自顶向下机制用来决定特征权重。
翻译
发布博客 2022.12.17 ·
644 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

多模态论文导读--VQA视觉问答经典论文:(注意力机制)Where To Look: Focus Regions for Visual Question Answering

我们提出了一种通过选择与文本相关的图像区域来学习视觉问答的模型。我们的方法通过将文本的query与图像不同区域的视觉特征映射到同一个空间并通过内积来计算它们的相关性。我们的方法在视觉问答中类似"what color"这种需要定位到确切位置和"waht room"这种进行相关区域识别的问题上的表现提高很多。我们的模型在最近发布的VQA数据集(人类标注)上进行测试。视觉问答(VQA)任务是给定问题和图片来问答相关问题。VQA在语言表征、推理、识别、常识和阅读及查数这样的具体方向上还有很多挑战。
翻译
发布博客 2022.12.16 ·
352 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

多模态论文导读--VQA视觉问答经典论文:(全卷积结构)Learning to Answer Questions From Image Using ConvolutionalNeuralNetwork

在这篇文章中,我们提出了将卷积神经网络(CNN)应用于图像问答(QA)。我们提出的端到端的模型结构不仅使用CNN来学习图像和问题表示,还学习了两个模态之间的交互关系来预测答案。我们的模型由3个CNN组成:一个图像CNN用来编码图像内容;一个句子CNN来处理单词组成的问题;另有一个多模态卷积层去学习两个模态间的联合表示。我们在DAQUAR和COCO-QA数据集上进行测试,并获得了SOTA的表现。最近,在图像与语言之间的多模态学习研究工作越来越受到关注,例如图像与句子的双向检索、图像字幕生成等。
翻译
发布博客 2022.12.14 ·
769 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

多模态论文导读--VQA视觉问答前沿论文:(零样本学习)CLIP Models are Few-shot Learners

CLIP在很多视觉任务上展现了非凡的零样本学习能力。在一开始,CLIP仅被当成一个强力的视觉编码器。然而,在经过大量的“图片-字幕”的有监督数据集上预训练之后,CLIP已经获得了在多模态任务上的少样本学习能力。在本篇文章中,我们展现了CLIP强大的少样本学习能力。我们首先在标准的视觉问答任务上验证了CLIP的零样本学习能力然后展现了CLIP在视觉继承(visual entailment)任务上的跨模态零样本迁移能力。然后我们提出了一种微调策略来提升其在视觉问答任务的少样本学习能力。
翻译
发布博客 2022.12.13 ·
2046 阅读 ·
2 点赞 ·
1 评论 ·
6 收藏

显示码龄九年,但是我才大四 然后仔细回想好像是初中玩我的世界的时候配置java时候注册的

发布动态 2022.12.11

多模态论文导读--VQA视觉问答经典论文:(快速实现)Simple Baseline for Visual Question Answering

我们基于词袋特征(bag-of-words)建立了一种非常简单的VQA的baseline,即将问题的单词特征与图片的CNN特征进行拼接来预测答案。其在具有挑战性的VQA数据集上与最近的基于循环神经网络的方法都性能具有可比较性。为了进一步探讨这种模型的优缺点,我们对外提供了一个可交互的web的demo并进行代码开源。将自然语言处理与计算机视觉领域结合,进行高级场景理解是最近的主要去向,如字幕生成等。这些工作的诞生主要是受到深度学习在视觉识别领域的快速发展与最近大型图像与语言数据集的诞生。
翻译
发布博客 2022.12.09 ·
1931 阅读 ·
1 点赞 ·
1 评论 ·
11 收藏

深度学习入门--锚框Anchor的生成处理及可视化(详细说明及代码实现)

还不知道如何实现目标检测任务中的锚框如何生成以及可视化吗?快来观看目前最详细的代码解刨!
原创
发布博客 2022.11.23 ·
1996 阅读 ·
6 点赞 ·
1 评论 ·
13 收藏

深度神经网络模型,在可视化步骤报错

答:

是因为数据里面含有“None”这个字符串,没法转成int。我猜是你没有处理缺失值

回答问题 2022.11.21

量子神经网络预测值与实际值差异过大(matlab代码)

答:

之前用mse作为损失函数来做过预测,可以说基本就是相当于把前一天的数据加上一个很小的扰动值(相当于把数据平移了一下,这样的损失最小),所以一般不推荐用网络和mse去进行数值的时序预测。
不过针对你这种情况可以试试去预测增量

回答问题 2022.11.21

人工智能CV入门Vgg16迁移学习猫狗分类实战代码及数据集

发布资源 2022.11.20 ·

人工智能NLP入门Seq2Seq英汉翻译实战代码及数据集

发布资源 2022.11.20 ·

人工智能NLP词嵌入Word2Vec实战代码及数据集

发布资源 2022.11.20 ·

pytorch下基于卷积神经网络实现图像验证

答:

将你选取的模型的后面的分类层去掉,即只使用前面的卷积层来做特征提取。在分别得到两张图片的特征后,将两个特征进行concat或者相加,再送入一个二分类模型。关于如何去掉分类层和冻结参数微调可以参考我的一篇文章:https://blog.csdn.net/qq_15534667/article/details/127942802?spm=1001.2014.3001.5502

回答问题 2022.11.20

小新想弄懂制作循迹小车

答:

可以参考树莓派中C语言操控电机

回答问题 2022.11.20

CV入门--VGG16迁移学习(猫狗分类)实战

下载VGG预训练模型修改最后分类层的参数(1000类改为2类)冻结前面的特征提取层(设置参数的)在猫狗数据集进行微调。
原创
发布博客 2022.11.19 ·
4070 阅读 ·
7 点赞 ·
14 评论 ·
59 收藏

NLP入门--Seq2Seq英汉翻译实战

seq2seq是序列到序列,是从一个序列生成另外一个序列。它涉及两个过程:一个是理解前一个序列,另一个是用理解到的内容来生成新的序列。至于序列所采用的模型可以是RNN,LSTM,GRU,其它序列模型等。本教程中使用GRU。
原创
发布博客 2022.11.13 ·
1056 阅读 ·
4 点赞 ·
1 评论 ·
17 收藏

NLP入门--Word2Vec(CBOW)实战

首先我们只关注正样本,即**pos_embedding**的含义是周边上下文的向量矩阵(行数为上下文单词数,列数为向量维度);而**input_embedding**的含义为目标词的向量;将两者矩阵相乘后再在列维度求和,将其作为损失函数的正项,则其在反向传播时每一个上下文单词的行向量在该**in_embed层**的梯度就是目标词的行向量、**out_embed层**的梯度就是上下文的行向量的平均。即相当于**out_embed层**在训练时将目标词的行向量减去其上下文单词行向量的平均,同时将负样本的行向量加
原创
发布博客 2022.11.09 ·
1454 阅读 ·
5 点赞 ·
5 评论 ·
19 收藏

使用柏林噪声生成游戏地图(一维和二维实现)

本教程介绍了柏林噪声的定义。并实现了一维及二维的柏林噪声,将其用于生成游戏地图。
原创
发布博客 2022.07.01 ·
4612 阅读 ·
5 点赞 ·
2 评论 ·
29 收藏

深度学习入门--Transformer中的Decoder详解

Transformer中的Decoder详解DecoderDecoder结构Masked训练与推断实现代码Decoder在上一节中,我们学习了Encoder的结果及实现代码:Transformer中的Encoder详解:Multi-Head-Attention及Feed-Forward在这一节中,我们将学习Transformer剩余的部分:DecoderDecoder结构DecoderDecoderDecoder的结构和EncoderEncoderEncoder类似,但是相较于EncoderE
原创
发布博客 2021.05.02 ·
12597 阅读 ·
14 点赞 ·
3 评论 ·
43 收藏

深度学习入门--Transformer中的Encoder详解:Multi-Head-Attention及Feed-Forward

Transformer中的Encoder详解:Multi-Head-Attention及Feed-ForwardSelf-AttentionSelf-Attention的由来Self-Attention的公式推导通俗解释从Self-Attention到Multi-Head-Attention如何并行化实现代码Add&Norm层实现代码Feed-Forward层实现代码Positional EncodingEncoder各模块组合Encoder代码Self-Attention2017年,谷歌提出了
原创
发布博客 2021.04.26 ·
5352 阅读 ·
12 点赞 ·
1 评论 ·
43 收藏
加载更多