今天也要学习！-CSDN博客

原创【VQA】ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge

动机：现有的VLP方法没有充分利用图像-文本对的内在知识，限制了学习对其的有效性，从而限制模型效率。创新：1.以Scene graph形式分别表示text和image特征；2.引入cross modal and intro modal 知识；2.1 intro modal knowledge: 图像中各个object之间的关系、region之间的spatial关系、以及文本相邻单词之间的上下文联系。2.2 cross modal knowledge:与图像中object语义相关的文本中的单词。如：g

2022-04-19 21:22:05 417 1

原创【VQA】Deep Multimodal Neural Architecture Search

动机：目前的深度神经网络大多是针对特定的任务手工设计特定的网络结构。本文提出一个多模态的NAS框架，应用不同的任务头来解决不同的多模态问题。NAS:Neural architecture search创新：1.引入NAS，设计了一个针对不同多模态任务的框架模型。Mmnas2.在不同任务多个数据集上验证效果，达到sota。代码：https://github.com/MILVLG/mmnas[]本文的工作是基于MCAN改进的，引入了NAS算法，设计了一个多模态不同任务通用的框架，在多个数据集上达到了S

2022-04-19 21:19:45 972

原创 ReGAT项目---Parser---argument中的store_true

parser.add_argument('--tfidf', action='store_true', help='tfidf word embedding?')action=‘store_true’ 是一个触发操作当触发时，所设置参数为True；不触发时，所设置参数为False;如下：python run.py --tfidf此时运行代码中包含–tfidf参数故触发所以tfidf == Truepython run.py此时运行

2021-09-02 16:25:50 233

原创 conda 无法激活base环境解决办法

这里写自定义目录标题https://blog.csdn.net/qq_45911550/article/details/111402474

2021-07-08 18:38:46 888

原创报错-Could not load dynamic library libcudart.so.7.0

报错背景：中国高校计算机大赛-微信大数据挑战赛问题描述：在Pycharm里跑官方提供的baseline(tf代码)的时候，用gpu跑的时候报错：Could not load dynamic library libcudart.so.7.0之后代码跳过gpu加载阶段，直接使用cpu跑报错截图如下原因分析：服务器没有装cudnn7.6.5解决方案：一csdn了一下，发现有其它人也碰到过这种问题：https://blog.csdn.net/qq_19707521/arti

2021-05-27 21:19:10 344

原创 VQA文献阅读 Learning Conditioned Graph Structures for Interpretable Visual Question Answering

1.动机作者认为：1.现有的基于图结构的VQA方法是定制的不能从抽象图像扩展到真实图像2.没有考虑将问题信息添加进来3.没有直观的展示得到结果的过程（Interpretable）2.贡献1.提出一个新的、Interpretable、基于图卷积网络的VQA方法图中的节点表示Image features中的Bounding box ,节点之间的线条表示image中各个节点的联系强度(联系越强，线条越粗)。线条的学习中，引入了先验知识----问题信息2.模型的可解释性通过Image上的bou

2021-05-21 10:55:56 176

原创 VQA文献阅读 Relation-Aware Graph Attention Network for Visual Question Answering ICCV2019

ReGAT关系感知图形注意网络用于视觉问答摘要引言合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入关系感知图形注意网络用于视觉问答摘要这篇论文认为，回答涉及到复杂语义的问题时，VQA模型要能够充分理解图片中的视觉场景，特别是不同物体之间

2021-03-23 22:11:57 477

avast510的博客