【CSDN AI 周刊】No. 007 | SIGIR 2016信息检索精选论文-CSDN博客

本文链接：https://blog.csdn.net/qunnie_yi/article/details/80127921

图片描述

【CSDN AI 周刊】每周一早八点为您奉上新鲜出炉的AI早餐。订阅请点击这里。

若您有希望与业界分享的AI实施案例、资料整理、学习笔记、趣闻妙谈，请发送邮件至wangyi@csdn.net，期待您的声音。

孙剑亲自撰文：我在 Face++ 的这半年

2016年，就我个人来讲，所做出的最重大抉择，就是在已经工作了十三年的微软研究院（以下简称MSR），和一个成立不过几年的创业公司——Face++旷视科技（以下简称Face++）之间，选择了后者，并且以首席科学家身份加入。当时我还住在西雅图，当真是“身未动，消息已远”，各种报道从国内外朋友圈向我强势袭来，让我体会到了媒体的力量。时至今日，我已搬回北京，在Face++上班近半年了，依然时常被问及：“过的怎么样？”、“Face++和MSR的研究部门一吗？”、“Face++是如何开展研究工作的？……”等等。问题或大或小，但大多诸如此类。值此新年之际，我想把自己这半年来的观察与思考与大家分享一下，权且当作对各位关心的答谢。接下来，我将围绕大家关注的一些典型问题，逐一说明。

百度任命陆奇为集团总裁兼首席运营官

2017年1月17日，百度宣布正式任命陆奇博士担任百度集团总裁兼首席运营官。陆奇将主要负责百度的产品、技术、销售及市场运营。百度现有各业务群组及负责人都将直接向陆奇汇报工作，包括搜索公司总裁向海龙、技术体系和新兴业务群组总裁张亚勤、高级副总裁朱光携金融业务群组、高级副总裁王劲携无人驾驶事业部和首席科学家吴恩达带领的人工智能技术团队，而陆奇将向百度集团CEO李彦宏直接汇报。

深度学习的下一个热点：生成对抗网络(GANs)将改变世界

生成式对抗网络—简称GANs—将成为深度学习的下一个热点，它将改变我们认知世界的方式。准确来讲，对抗式训练为指导人工智能完成复杂任务提供了一个全新的思路，某种意义上他们（人工智能）将学习如何成为一个专家。举个对抗式训练的例子，当你试图通过模仿别人完成某项工作时，如果专家都无法分辨这项工作是你完成的还是你的模仿对象完成的，说明你已经完全掌握了该工作的所需的技巧。对于像写论文这样复杂的工作，这个例子可能不适用，毕竟每个人的最终成果多少有些不同，但对于中等难度的任务，比如造句或写一段话，对抗式训练大有用武之地，事实上它现在已经是计算机生成真实图像的关键所在了。

SIGIR 2016信息检索精选论文

人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文，即便是亲临现场也很难追踪到所有的前沿信息。在时间和精力有限的情况下，选择精读哪些论文、学习哪些热门技术就成为了AI学者和从业人员头痛的问题。本栏目旨在帮助大家筛选出有意思的论文，解读出论文的核心思想，为精读提供阅读指导。信息检索（IR）界的顶级会议International ACM SIGIR Conference on Research and Development in Information Retrieval（SIGIR 2016）在意大利比萨举行。整整三十年前的1986年，第一届SIGIR大会也在同一个城市举行。尽管与机器学习和数据挖掘领域其他大会的蓬勃发展相比，SIGIR这几年有所收缩，但信息检索界的研究依然对搜索系统以及推荐系统的发展有着重要的指导作用。笔者从SIGIR 2016精选出5篇有意思的文章，为读者解惑。

从业务角度理解深度学习及其应用

近几年，深度学习在图像、音频处理等领域得到了广泛的应用并取得了骄人的成绩，本文根据笔者的工作实践，谈谈对深度学习理解，以及我们的应用和经验。笔者认为，机器对于这些对象的学习，本质上是使用机器语言对其特征进行表示。例如，对性别的识别，其实就是计算机将样本表达成男/女两种形式。目前的计算机是以CMOS管为基础的冯诺依曼结构，其运算是线性的，数据的表达是0维度的。如何让低维度的计算机处理高维度的对象？这个表示的过程其实就是机器学习的过程。就如同处在二维空间的蚂蚁无法感知三维世界一样，笔者认为目前的计算机0维的运算结构无法真正实现类似人类智能的人工智能，因为这种表示是不充分的。

关于机器学习的领悟与反思

今年刚被选为美国科学院院士的卡内基梅隆大学统计系教授沃塞曼(Larry Wasserman)写了一本名字非常霸道的书：《统计学完全教程》(All of Statistics)。这本书的引言部分有一个关于统计学与机器学习非常有趣的描述。沃塞曼认为，原来统计是在统计系，计算机是在计算机系，这两者是不相来往的，而且互相都不认同对方的价值。计算机学家认为那些统计理论没有用，不解决问题，而统计学家则认为计算机学家只是在“重新发明轮子”，没有新意。然而，他认为现在情况改变了，统计学家认识到计算机学家正在做出的贡献，而计算机学家也认识到统计的理论和方法论的普遍性意义。所以，沃塞曼写了这本书，可以说这是一本为统计学者写的计算机领域的书，为计算机学者写的统计领域的书。现在大家达成了一个共识：如果你在用一个机器学习方法，而不懂其基础原理，这是一件非常可怕的事情。正是由于这个原因，目前学术界对深度学习还是心存疑虑的。尽管深度学习已经在实际应用中展示出其强大的能力，但其中的原理目前大家还不是太清楚。

百度大脑小度声纹识别技术解析

日前，继在江苏卫视《最强大脑》第四季“人机大战”首轮任务跨年龄人脸识别竞赛中击败人类顶级选手后，在上周五晚上，百度的小度机器人再次在声纹识别任务上迎战名人堂选手——11岁的“听音神童”孙亦廷，双方最终以1:1打成平手。被称为“鬼才之眼”的水哥（王昱珩）宣布再度出山，将在下周的第三轮比赛中与“小度”在图像识别方面一决高下。本轮题目规则为：从“千里眼”到“顺风耳”，节目组将第二场比赛范围划定在“听”的领域，策划出高难度选题《不能说的秘密》，由周杰伦化身出题人，从21位性别相同、年龄相仿、声线极为相似的专业合唱团中，选出三位每个人读一句话，加密后成为断断续续的声音样本再交给小度和孙亦廷，要求他们从合唱声音中识别出三名线人的声音。百度语音技术部总监高亮从技术角度解读了本场的难点，他认为声纹识别对机器来说是一项‘高难度挑战’，尤其是本次比赛采用的大合唱形式能显著降低不同人的差异性，并且合唱的内容有长时间的语气词内容，更进一步增加了注册语音的混淆程度。而线人测试声音断断续续，特定说话人的一些发音习惯很大可能被损坏掉，也加大了说话人特征提取表征的难度。

KNN算法的理解与具体实现

K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法不同的是，K-Means算法用来聚类，用来判断哪些东西是一个比较相近的类型，而KNN算法是用来做归类的，也就是说，有一个样本空间里的样本分成很几个类型，然后，给定一个待分类的数据，通过计算接近自己最近的K个样本来判断这个待分类数据属于哪个分类。你可以简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类。

主流深度学习框架和通用机器学习框架对比

本文对主流的深度学习及机器学习框架进行了优缺点分析与对比。其中涉及的深度学习框架包括：Theano & Ecosystem、Torch、Tensorflow、Caffe、CNTK、DSSTNE、Speed等；机器学习框架包括：sci-kit learn、Apache Mahout、SystemML、Microsoft DMTK。深度学习领域内的很多学术研究人员依赖于 Theano，这个用 Python 编写的框架可谓是深度学习框架的老祖宗。Theano 像 Numpy 一样，是一个处理多维数组的库。与其他库一起使用，Theano 很适合于数据探索和进行研究。在 Theano 之上，已经有很多的开源的深度库建立起来，包括 Keras、Lasagne 和 Blocks。这些库的建立是为了在 Theano 偶尔的非直觉界面上更简单地使用 API。

GAN学习指南：从原理入门到制作生成Demo

生成式对抗网络（GAN）是近年来大热的深度学习模型。最近正好有空看了这方面的一些论文，跑了一个GAN的代码，于是写了这篇文章来介绍一下GAN。本文主要分为三个部分：1. 介绍原始的GAN的原理; 2. 同样非常重要的DCGAN的原理 3. 如何在Tensorflow跑DCGAN的代码，生成如题图所示的动漫头像。（附送数据集哦）

【CSDN_AI】热衷分享

扫码关注获得更多业内领先案例

图片描述