zimoli-nuist
码龄1年
关注
提问 私信
  • 博客:8,625
    8,625
    总访问量
  • 7
    原创
  • 214,902
    排名
  • 92
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:多模态感兴趣

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2023-06-11
博客简介:

2301_78651472的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    2
    当前总分
    116
    当月
    1
个人成就
  • 获得112次点赞
  • 内容获得17次评论
  • 获得124次收藏
创作历程
  • 7篇
    2024年
成就勋章
兴趣领域 设置
  • Python
    pythonnumpypandasconda
  • 数据结构与算法
    算法数据结构哈希算法
  • 后端
    爬虫
  • 人工智能
    计算机视觉机器学习人工智能深度学习神经网络tensorflowpytorch语言模型transformer迁移学习
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

176人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering论文解读

DFAF论文解读
原创
发布博客 2024.03.29 ·
750 阅读 ·
20 点赞 ·
1 评论 ·
18 收藏

多模态特征融合的方法总结:应用于VQA视觉问答

​​对于视觉问答任务而言,其中比较重要的部分就是两种模态的特征融合。目前对于特征融合最先进的技术是双线性池化,该技术有很多的变体。我们主要围绕双线性池化这种模态融合的方法展开总结。其中MUTAN方法的代码,我已经放在这个链接里面。本文仅供大家参考,所有方法均来自于论文,如有侵权,请联系我删除!
原创
发布博客 2024.03.09 ·
1214 阅读 ·
10 点赞 ·
1 评论 ·
19 收藏

论文所对应的Latex源码在哪里找?

最近在写论文,发现身边好多朋友都不知道对应期刊Latex的源码在哪里找。今天想简单的写个博客,教一下大家在哪里可以找得到源码。
原创
发布博客 2024.03.09 ·
593 阅读 ·
10 点赞 ·
1 评论 ·
3 收藏

多模态特征融合的方法总结:应用于VQA视觉问答

发布资源 2024.03.09 ·
pdf

VQAv2评估代码 - 使用教程

视觉问答VQA 评估系统
原创
发布博客 2024.03.06 ·
1909 阅读 ·
6 点赞 ·
12 评论 ·
20 收藏

Bilinear Attention Network论文解读,以及详细的双线性池化及其各种变种的解读

发布资源 2024.03.02 ·
pdf

VQA入门之“论文”《Stacked Attention Networks for Image Question Answering》

本节将要介绍一种新的特征融合方式,这篇论文的方法叫做堆叠注意力网络。那么从本节开始,所有的模型我会把原理讲清楚,然后用一个维度较低的例子带各位同学走一遍模型的前向传播。其思想是用编码后的文本向量去扫描编码后的图像的每个区域,然后得到每个区域的注意力分数,将注意力分数乘到每个区域上,然后求和,得到一个图像表示向量,然后将图像表示向量与编码后的文本向量求和得到融合后的向量。可能这样说有点抽象,没关系,相信你看完下面的内容再回过头来看这句话就会醍醐灌顶!
原创
发布博客 2024.02.07 ·
1115 阅读 ·
25 点赞 ·
2 评论 ·
18 收藏

VQA入门之“论文”《Exploring Models and Data for Image QuestionAnswering》基础的双模态相互作用

论文名字的翻译为:探索“图像问答”的模型和数据本文主要是讲一下这篇论文所提到的模型,一些其他部分(引言,实验等等),可以自行去原论文查看。制作不易,求个关注~~下期间h_0h_0x_1h_1c_1h_1h_T。
原创
发布博客 2024.02.05 ·
548 阅读 ·
16 点赞 ·
0 评论 ·
16 收藏

VQA入门(模型原理+模型代码)之《简单的模态融合交互》

本文所介绍的VQA模型是一种最简单的VQA多模态交互模型。模型的关键点在于提取图像特征(Image_feature)和文本的特征(qst_feature),然后通过逐元素乘法将两种模态的特征融合到一起。这是一种早期的模态融合方法。欢迎对多模态感兴趣的朋友来互相学习讨论~图画的不好,还请见谅,下面的具体模型部分会再次讲解。Fig1:模型示意图Step1:假设训练样本的一张图像是[3,224,224]的,也就是一张图像有三个通道,图像的长和宽均为224,则训练样本为:x = [batch_size,3,224,
原创
发布博客 2024.02.04 ·
1885 阅读 ·
12 点赞 ·
0 评论 ·
17 收藏