Deep Learning论文选读

国际人工智能联合会议( International Joint Conference on Artificial Intelligence,IJCAI )是聚集人工智能领域研究者和从业者的盛会,也是人工智能领域中最主要的学术会议之一。1969 年到 2015 年,该大会在每个奇数年举办,现已举办了 24 届。随着近几年来人工智能领域的研究和应用的持续升温,从 2016 年开始,IJCAI 大会将变成每年举办一次的年度盛会;今年是该大会第一次在偶数年举办。第 25 届 IJCAI 大会于 7 月 9 日- 15 日在纽约举办。
Guest Editor导读:
本届会议的举办地在繁华喧嚣的纽约时代广场附近,正映衬了人工智能领域几年来的火热氛围。此次大会包括7场特邀演讲、4场获奖演讲、551篇同行评议论文的presentation,41场workshop、37堂tutorial、22个demo等。深度学习成为了IJCAI 2016的关键词之一,以深度学习为主题的论文报告session共计有3个。本期我们从中选择了1篇深度学习领域的相关论文进行了精读,介绍论文的主要思想,并对论文的贡献进行点评。
Semi-Supervised Multimodal Deep Learning for RGB-D Object Recognition
深度网络在近两年成绩不俗,应用广泛。RGB-D物体识别的研究人员自然也不会无动于衷,他们厉兵秣马,决意大干一番。怎奈何深度模型需要众多标记数据,而贴标签的营生,不是工程浩繁,就是价格昂贵。针对这一情况,血气方刚的微软人创制新算法,以半监督式学习替代全部附上标签的监督式学习。据称,仅需5%的标签,即可取得往常监督学习的成效。他们是变了什么“戏法”,把这么大的标签空缺补得滴水不漏?
简而言之,就是“协同训练”与“色深互补”。 “色深互补”,是典型的3D图像处理模式。三个颜色信息外加深度信息,统合利用。颜色信息包含更多物体类别信息,而深度信息包含更多物体姿态变化。
协同训练,就是有标签的数据,协同没有标签的数据,一起训练。这个方法并非新硎初发,但这里的方法很有新意,作者叫它“Diversity preserving co-training”,颇有求同存异的味道。在后文中详述实现细节。
网络设计如图所示。我们先看实线连接部分,从有标签的数据库开始。这里面的数据“案底分明”,所以直接用上卷积网络,提取特征。一番勤学苦练,网络就初具规模。提取到的特征,颜色部分提取的特征就去颜色分类器,深度的部分提取的特征送深度分类器,此外两个部分融合起来,送进画在中间的集成分类器。它的意图是为网络的端对端训练。而后连到虚线部分。颜色、深度这两个“判决机构”敲了锤,下面这个黑饼,代表没有标签的数据库,就赶紧来学习“宣判书”,据此把更多数据贴上标签,它们被送到开头有标签的那个库。具体实现是这么个图: 实线部分的网络,是比较经典的AlexNet,虚线部分是帖标签器。整体是一个AlexNet+Updating LabelPool结构。
值得一提的是,实线部分的FC7层一分叉,走两股。一股走类别分类器,另一股则是隐含属类分类器,作者叫它“多任务学习”。总体的目标是:
这里面x是某一具体数据,花体L表示所有带标签的数据构成的库 标签中包含颜色信息I,深度信息D,类别信息y。
v表示颜色或是深度模块, z代表属类标签。        表示DCNN模型预测的概率。整个损失函数是典型的门闩型损失(hinge loss)。
下面说说虚线部分的事情,也是本文的“大杀器”。我们也许要问,给无标签数据打标签,具体做法是什么。简单来说,核心的技术就是聚类。所有的数据都要参与聚类。聚类的目的是把没有标签的数据去找与其相似的有标签的数据,信心高的就可以帖它们的标签。信心的依据就是“属类”,聚类聚出来的类别。作者说用到方法叫“凸聚类”,这个方法据称可以收敛到全局最小值,自动找到最优的聚类的类别数。目标函数是最大化下面的对数似然型目标函数: 这里面q(x)表示某个数据x的“代表度”,需要满足非负性与加和为1的性质,表示判断的信心。 是欧氏距离,表示两个样本x和x’的差异。它们都“穿”了一身φ(.),表示这二位都是提取的特征,作者使用的是fc7特征。β是个常数,熟悉热力学玻尔兹曼定律的同学会知道,它表征了某种“温度”或者系统活跃程度的东西。我们在机器学习中常用它作弥散核,估计系统能量。Log函数的加和意味着内部的乘积,说明作者认为所有标签独立分布。整体来说,我们最大化目标,就是要合理地把信心q分配到各个聚类的类别里。这与传统聚类是一致的。聚类的结果表示为: 其中C表示类别数。图中的例子里面,颜色信息聚了5类,深度信息聚了3类。 聚类以后就要更新标签库。将没有标签的数据算出相近属类的信心,信心较高的集合表示为:
其中 表示无标签数据。 表示给数据x标记属类z的概率。f是softmax函数。τ是一个预先选定的阈值,超过这个阈值的x说明和z属类契合度很高,可以标记z属类。v仍是表示模块,颜色或深度。迭代规则就是: 无标签数据x通过z的信息,找到最相近的有标签的z迁移它的y。于是“有较高信任度”的x们获得了标签。

聚类以后的结果Z被赋予新的名字:(隐含)属类。于是原先由颜色、深度、标签组成的三元组,变成现在颜色、颜色属类、深度、深度属类、标签构成的五元组。
有标签的数据,属类都编号整齐了。

最后我们来说预训练的事儿。在许多视觉领域用其他收敛技术取代了这种做法,但是毕竟标签太少,难说初始化的不好会惹出什么乱子;况且,开始的聚类必须具有代表性,万一在开始的时候聚类类别不全,就后患无穷。索性先以重构目标为先锋,全部数据,带不带标签的数据齐出动,打开局面再说。
实验(当然辉煌地)证明了方法的有效性,在只使用5%训练数据的情况下就取得了与使用完全标注数据的监督学习方法可比的性能。
在文章的最后,我们总结一下“变戏法”的过程,即来回答未知的标签从哪里产生的。每个类别都聚成很多子类,而后将无标签数据附会为聚类相近的子类。逻辑上,如果夸类别的子类间很近似,就比较容易犯错。但总体而言,仍比只依靠类别信息更准确些。IJCAI的风格多理论性强,小编猜测此文的桥段中,聚类当取鳌头。另外,预训练的AE给网络更好的初始化,是成功进行后续打标签工作的前提。AlexNet+AE预训练的模式仍旧熠熠生辉,可见深度模型的博大精深啊。小编认为未来半监督学习和无监督学习会逐渐地使用深度模型解决各自的问题。是产生标签或是附会标签,抑或是更聪明地缩小图像与标签间的语义鸿沟,将是未来的方向【小编使命脸】。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 概述类 首先是概述类论文,先后有2013年的“Representation Learning: A Review and New Perspectives”和2015年的”Deep Learning in Neural Networks: An Overview”两篇。 上传了较新的一篇。 3. 分布式计算 分布式计算方面论文涉及到具体解决计算能力的问题。有2012年的两篇论文Building High-level Features Using Large Scale Unsupervised Learning和Large Scale Distributed Deep Networks,其中后篇较好,其中第一次提到GPU对深度学习计算进行提速,其描述的情形大致是如何对多个GPGPU并行计算的深度学习框架进行编程。故上传了此篇 4. 具体算法 而后便是具体的算法方面的典型论文,包括K-means、单层非监督网络、卷积网络CNN、多级架构、Maxout和增强学习,论文列举如下: 2006年Notes on Convolutional Neural Networks 2009年What is the Best Multi-Stage Architecture for Object Recognition 2011年An Analysis of Single-Layer Networks in Unsupervised Feature Learning 2012年Learning Feature Representations with K-means 2012年Sparse Filtering (其中有RBM,auto-encoder等) 2014年Improving deep neural network acoustic models using generalized maxout networks 2014年Adolescent-specific patterns of behavior and neural activity during social reinforcement learning 2015年Reinforcement learning models and their neural correlates: An activation likelihood estimation meta-analysis和Human-level control through deep reinforcement learning
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值