最新最全论文合集——视觉和语言训练模型

AMiner学术搜索和科技情报挖掘

于 2021-02-01 00:58:16 发布

阅读量199

点赞数

分类专栏： Topic推荐

本文链接：https://blog.csdn.net/AI_Conf/article/details/113488520

版权

Topic推荐专栏收录该内容

417 篇文章 19 订阅

订阅专栏

AMiner平台（https://www.aminer.cn）由清华大学计算机系研发，拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱，提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线，吸引了全球220个国家/地区1000多万独立IP访问，数据下载量230万次，年度访问量超过1100万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

必读论文：https://www.aminer.cn/topic

论文集地址：https://www.aminer.cn/topic/600a87d992c7f9be213c93c6

适用于下游任务的通用特征表示预训练是深度网络成功的标志之一。在计算机视觉领域，深度网络在ImageNet数据集进行图像分类的预训练过程，被发现可广泛提高多种图像识别任务的效果。在自然语言处理领域中，Transformer模型在大规模语料库中使用语言模型进行预训练的过程，也被证明可广泛提高多种自然语言处理任务的效果。之前的视觉-语言模型分别使用计算机视觉或自然语言处理领域中的预训练模型进行初始化，但如果目标任务数据量不足，模型容易过拟合从而损失性能。并且对于不同的视觉-语言任务，其网络架构一般是经过特殊设计的，由此很难通过视觉-语言联合预训练的过程帮助下游任务。近年来，在应用于视觉-语言任务的预训练通用特征表示的研究也逐渐被关注。

该论文集共收录46篇论文，引用最多的论文为VideoBERT: A Joint Model for Video and Language Representation Learning，引用数是78。
在这里插入图片描述

订阅了解更多论文信息，定制您的个人科研动态信息流：https://www.aminer.cn/user/notification?f=mt

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
最新最全论文合集——视觉和语言训练模型

AMiner平台（https://www.aminer.cn）由清华大学计算机系研发，拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱，提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线，吸引了全球220个国家/地区1000多万独立IP访问，数据下载量230万次，年度访问量超过1100万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。必读论文：https://www.aminer.cn/topic论文集地址：https:/.
复制链接

扫一扫

专栏目录