cvpr 注意力机制_今日论文|Transformer++刷新翻译SOTA&跨越语言鸿沟的视觉共享嵌入&高度驱动注意力网络&多语言问答数据集&MORE...

今日人工智能领域新增论文 224篇,AI日读精选其中 36篇推荐给大家。这些论文主要来自CVPR,AAAI,ECAI,AISTATS,ESWC,WAAS,JMLR等会议与期刊。其中包含 计算机视觉论文17篇[1-17], 自然语言处理论文5篇[18-22], 方法论论文3篇[27-29], 知识图谱论文4篇[31-34], 推荐系统论文2篇[35-36]。
首先来看 计算机视觉论文:
- 在临床显微镜中处理 十亿像素完整幻灯片图像(WSI)的困难一直是实施计算机辅助诊断系统的长期障碍。由于现代计算资源无法以如此巨大的规模执行计算,因此当前的最佳技术方案是利用基于补丁的处理来保持WSI分辨率。但是,这些方法通常占用大量资源,且在处理时间上造成很大折衷。[6]证明传统的基于补丁的处理对于某些WSI分类任务是多余的, 在WSI分类任务中, 仅在少数情况下才需要高分辨率。这反映了在临床实践中观察到的情况:病理学家可以使用低分辨率物镜来筛选幻灯片,并且只有在不确定其发现时才切换到高分辨率。为消除这些冗余,研究者基于对缩减的WSI的预测置信度,提出一种选择性使用高分辨率处理的方法,称之为 选择性目标切换(Selective Objective Switch,SOS)法。该方法在常规用于自身免疫性肝病研究的684个肝脏-肾脏-胃免疫荧光WSI的新数据集上得到验证。通过将高分辨率处理限制为无法在低分辨率下可靠分类的案例,可以保持补丁程序级别分析的准确性,同时将推理时间减少7.74倍。
- [2]利用城市场景图像的内在特征,提出一个通用的附加模块,称为 高度驱动注意力网络(Height-Driven Attention Networks,HANet),用于改善城市场景图像的语义分割。其 根据像素垂直位置选择性强调信息化特征或类别。在城市场景图中,在水平分割的部分之间,逐像素类别分布明显不同。同样,城市场景图像具有其自身独特的特征,但大多数语义分割网络并未反映出体系结构中的此类独特属性。所提网络架构结合了利用属性来有效处理城市场景数据集的能力。当采用HANet时,研究者验证了在两个数据集上各种语义细分模型的一致性能(mIoU)增加。这种广泛的定量分析表明,将所提模块添加到现有模型中既容易又具有成本效益。在基于ResNet101的细分模型中,所提方法在Cityscapes基准上实现了当前最佳性能。此外,研究者通过可视化和解释注意力图来表明所提模型与在城市场景中观察到的事实是一致的。
- 最近的研究表明,在部分遮挡的情况下,深度卷积神经网络(DCNN)的泛化性都不够高。受合成模型在分类部分遮挡目标任务上成功应用的启发,[3]提出将合成模型和DCNN 集成到一个 统一合成卷积神经网络模型中,使其在部分遮挡的情况下,也能具有良好的泛化性。其主要思想是 将传统DCNN顶部全连接分类层替换为一个可微合成模型,而合成模型的生成性质使它能够定位遮挡物,并随后专注于对象的非遮挡部分。文章在MS-COCO数据集中的人工遮挡图像以及部分遮挡物体图像上进行了实验,实验结果表明,即使是使用增强过的部分遮挡数据进行训练,DCNN也无法对遮挡的对象进行稳健的分类。文章提出的模型在对部分被遮挡的物体进行分类时,即使在训练过程中没有“看见”被遮挡的物体,其结果在很大程度上也优于标准DCNN的结果。
- 地球上有成千上万种能说的语言,但只有一个视觉世界。扎根于这个视觉世界有可能弥合所有这些语言之间的鸿沟。[5]目标是 使用视觉基础来改善语言之间无监督的单词映射。关键思想是通过学习以母语描述的未配对教学视频中的嵌入内容,在两种语言之间建立通用视觉表示。鉴于这种 共享嵌入,研究者证明1)可以在语言之间映射单词,尤其是“视觉”单词;2)共享嵌入为现有的无监督基于文本的单词翻译技术提供了良好的初始化方法,从而为所提的混合可视文本映射算法MUVE奠定基础;3)所提方法通过解决基于文本方法的缺点而获得卓越的性能,该方法更健壮、以较少的通用性处理数据集、适用于资源贫乏的语言。研究者采用所提方法将单词从英语翻译为法语、韩语和日语而无需任何平行语料库,只需观看许多人在做事时讲话的视频即可。
- 大多数现有的 目标检测方法都依赖于每个类别所提供的大量标注样本和离线批处理训练。这些要求将这些模型的可扩展性限制为只能训练有限标注样本的新类。为了解决这个问题,[4]提出了一个 增量小样本检测(Incremental Few-Shot Detection)方法。具体来说,文章提出了一个基于增量学习的 ONCE检测器,用来检测带有少数样本的新目标类。ONCE完全遵从增量学习的范式,新类只需在少量训练样本的情况下进行一次前向过程,而不需要访问基本的目标类,这使得ONCE适合在嵌入式设备上进行部署。文章在标准目标检测和服装关键点检测任务上进行了大量的实验,并证明了其提出方法的有效性。
- 视频具有丰富的动态结构,并且其在日常生活中十分普遍,因此一个自然而然的想法是将视频数据作为强大的无监督学习信号,用来训练深度神经网络中的视觉表示。然而想大规模的实现此想法仍然是当前视觉领域的一个重大挑战。在[1]中,文章提出了一个 视频实例化嵌入(VIE)框架,该框架将用于学习深度 非线性嵌入的无监督损失函数扩展到了大型视频数据集上的多流时间处理架构中。文章表明,通过VIE训练的神经网络在从视频数据流进行无监督学习方面显著优于现有模型,其既可以用于Kinetics数据集中的动作识别,也可以用于ImageNet数据集中的对象识别。 自然语言处理方面:
- 注意力机制的最新进展已取代递归神经网络及其在机器翻译任务中的变体。使用注意力机制的Transformer在序列建模中获得当前最佳结果。基于注意力机制的神经机器翻译可并行,且比循环神经网络更有效解决了句中单词间的长程依赖问题。注意力机制的核心概念之一是 学习Query,Key,Value这三个矩阵,通过这些矩阵线性投影词嵌入来学习单词之间的全局依赖。进一步,多个Query,Key,Value矩阵可以同时学习以聚焦于嵌入维度的不同子空间,这就是Transformer中的多头注意力机制。[19]认为, 单词之间的某些依赖可以通过中间上下文来习得,效果比直接建模单词到单词的依赖更好。这中现象可能取决于某些依赖项的性质,或是模式的缺失导致,这些模式使模型很难使用多头自注意机制进行全局建模。在这项工作中,研究者提出一种使用卷积在多头环境中学习依赖关系的新方法。与Transformer相比,这种新多头注意力形式及传统形式在WMT 2014的英语到德语和英语到法语翻译任务上取得了更好的效果。研究者还引入了一个框架,用于在编码器训练期间学习正类标记和负类信息,以进一步提高识别结果,从而在WMT 2014英德翻译任务上使BLEU值达到32.1,比现有基准1.4BLEU更好;在英法翻译任务上,BLEU则为44.6,比现有最佳方法高出1.1BLEU。研究者称所提方法为 Transformer ++
- 序列到序列模型试图捕获输入序列和输出序列中所有单词间的相关性。虽然这对于单词间相关性确实很强的机器翻译任务非常有用,但对于其中相关性通常处于抽象级别的会话建模而言则存在问题。人类倾向于专注对话上下文中讨论的基本概念,并产生相应的响应。基于此,[20]试图通过在 无监督情况下 学习上下文和响应中的基本概念模仿这种 响应生成机制。所提模型称为 Mask&Focus,将输入上下文映射到一系列概念,然后将这些概念用于生成响应概念。接着,上下文和响应概念共同生成最终响应。为自动从训练数据中学习上下文概念,研究者在输入中遮住一些单词,并观察遮罩对响应生成的影响。研究者训练模型来学习那些与上下文概念具有较高相互信息的响应概念,从而指导模型将注意力集中在上下文概念上。Mask&Focus在几个已建立的对话度量标准中,相对于现有基准有显著改进。
- 越来越多文献声称深度神经网络在处理恶意创建的对抗样本时是非常脆弱的。但是,目前尚不清楚这些模型在现实情况下(通常存在“自然而非恶意”的对抗样本)如何运行。[18]探讨 BERT
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值