TextTopicNet:CMU开源无标注高精度自监督模型

(关注52CV——有价值有深度的公众号~)

自监督模型是继GAN之后Yann LeCun看好的世界模型。

本文来自于Carnegie Mellon University和Universitat Autonoma de Barcelona研究团队的最新论文,展示了自监督学习在计算机视觉领域的巨大潜力。
基于深度学习的计算机视觉方法的巨大成功在很大程度上依赖于大规模的训练数据集。这些带有丰富标注的数据集有助于网络学习到具有鉴别能力的视觉特征。收集和标注这些数据集需要大量的人力,并且这些标注仅限于少数广为人知的类集。作为替代方案,通过设计利用可自由使用的带有自监督信息(self-supervised)的辅助任务来学习视觉特征已经在计算机视觉社区中变得越来越流行。
在本文中提出了利用多模态(这里是文本-图像模态)上下文为计算机视觉算法的训练提供自监督信息的想法。展示了通过训练CNN来预测语义文本上下文的问题可以有效地学习具有足够鉴别力的视觉特征,具体地说,这个问题就是对于一幅特定图像它更有可能成为哪一类语义文本的插图。在实现方法上,使用了流行的文本嵌入技术来为深度学习CNN的训练提供自监督信息。
最终的实验证明,与最近出现的自监督(self-supervised)或自然监督(naturally-supervised)方法相比,提出的TextTopicNet技术在图像分类,物体检测和多模态检索方面都达到了state-of-the-art的性能。

TextTopicNet方法总览
维基百科文章是包含某一主题的文本描述,这些文章往往还附有支持文本的说明性图像。使用文本嵌入框架生成文本信息的全局上下文表示。 将整篇文章的这种文本矢量表示用于为CNN的训练提供自监督信息。

何为自监督学习?
自监督(self-supervised)或者又称为自然监督(naturally-supervised)学习是指利用与图像内在关联的非视觉信号作为监督视觉特征学习的形式。比如一篇文章插图周围的文本信息。

Topic Model生成监督信息
使用LDA(Blei等,2003)Topic概率作为图像和文本的共同表示。使用文本的Topic级的表示来监督卷积神经网络的视觉特征学习。 通过使用CNN模型学习预测特定图像作为某一类语义上下文插图出现的概率的任务,达到学习可用于其他视觉任务的“通用”视觉特征。

使用的数据

来源于维基百科的网页。

1.ImageCLEF Wikipedia Collection

2.全部英文维基百科数据

TextTopicNet文本topic生成与CNN网络训练

使用LDA提取数据集中文本的topic,将topic的概率作为与其文本对应的图像CNN训练的监督信

将训练得到的CNN特征直接用于图像分类
直接提取网络中不同的层,使用one-vs-all SVMs方法在PASCAL VOC2007数据集上执行分类任务。除了LDA,文中尝试了多种Text Representation的文本嵌入方法。可以发现LDA主题模型取得了最好的效果。

PASCAL VOC2007上图像分类的每类平均精度
中间五行是其他自监督方法,最后两行是分别在ImageNet和Places数据集上训练的监督方法。相比于其他自监督方法,TextTopicNet的性能改进非常显著,即使与监督学习方法相比,在较难的类“bottle”也取得了最好的结果。

PASCAL VOC2007 上图像分类的%mAP
TextTopicNet (COCO)使用了COCO数据集的文本描述训练的,TextTopicNet (Wikipedia)打败了TextTopicNet (COCO),说明提取的特征有良好的推广特性。

SUN397 数据集图像分类精度

当然除了直接使用CNN的层进行特征提取,也可以finetune整个CNN网络然后执行图像分类。

网络finetune后在PASCAL VOC 2007图像分类结果

网络finetune后在STL-10图像分类结果

使用Fast R-CNN和TextTopicNet特征在 PASCAL VOC2007上的目标检测结果
虽然相比于在ImageNet上预训练的Fast R-CNN精度低,但Fast R-CNN若只是用PASCAL VOC2007数据训练,精度只有40.7%mAP。

多模态检索
即使用TextTopicNet特征,执行输入图像查询文本,或者输入关键词查询图像。

多模态检索的示例

展示了模型提取的特征具有良好的通用语义表示能力。

欢迎随手转发,让更多人看到——不是看到这个算法好,而是看到你很努力

更多精彩推荐:

终于!商汤科技开源DAVIS2017视频目标分割冠军代码

重磅!彭博社“机器学习基础”教程视频及讲义下载

MultiPoseNet:人体检测、姿态估计、语义分割一“网”打尽

阿里巴巴提出Auto-Context R-CNN算法,刷出Faster RCNN目标检测新高度

计算机视觉研究入门全指南

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
潜在的狄利克雷分配(LDA)等主题建模方法是用于分析大量文本数据的强大工具。 它们已广泛用于信息系统和管理研究中,以识别潜在的主题以进行数据探索,并作为特征工程机制来导出新变量以进行其他分析。 但是,现有的主题建模方法大多是无监督的,仅利用文本数据,而忽略了通常与文本相关的其他有用信息,例如客户评论中的星级或在线讨论论坛中的评论类别。 结果,提取的主题和基于学习的主题向量得出的新变量可能不准确,这可能导致对随后的计量经济学分析的估计有偏差或不正确,并且在预测任务中的表现不佳。 作为回应,我们提出了一种称为sDTM的新型监督主题建模方法,该方法以贝叶斯深度学习方式设计,同时并入了其他有用数据。 与传统主题建模方法相比,sDTM具有三个主要优势。 首先,它学习定量和定性测量的高质量主题,这可以帮助减轻对计量经济分析中潜在测量误差的担忧。 其次,这种有监督的学习模型比最先进的基准具有明显优越的预测性能。 最后,sDTM能够突出显示对结果有更强影响的单词,从而有助于透明的模型调查。 在三个数据集上的实验结果表明,sDTM不仅改善了监督学习任务,包括分类和回归,而且还表现出更好的模型拟合性(例如,较低的困惑度),有助于文档理解。 sDTM为IS和管理文献提供了方法论上的贡献,并且与使用大数据分析的研究具有直接相关性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值