近300位数据挖掘专家云集阿里，最精彩的发言都在这儿

最新推荐文章于 2024-11-15 09:29:17 发布

weixin_34242509

最新推荐文章于 2024-11-15 09:29:17 发布

阅读量295

点赞数

文章标签：大数据人工智能数据结构与算法

原文链接：https://yq.aliyun.com/articles/120179

版权

2017年6月29日，中国杭州阿里巴巴西溪园区，首届数据挖掘前沿发展与未来论坛成功举办。作为阿里巴巴集团、中国中文信息学会和KDD China三方联合打造的国内业界和学界顶尖数据挖掘论坛，会议吸引了来自国内顶级高校和知名企业的近300名专家学者到场参会。

众多数据挖掘领域大咖如：阿里巴巴iDST负责人金榕、蚂蚁金服人工智能部技术总监李小龙、IEEE Fellow、ACM Fellow、AAAI Fellow国立台湾大学教授林智仁、清华大学计算机系副教授崔鹏、中科院副研究员罗平等齐聚一堂，共同探讨数据挖掘领域前沿研究。

下面随阿里妹一起，看看诸位大牛的精彩观点吧！

淘宝“问大家”，实现大规模在线精准匹配

金榕，阿里巴巴iDST（Institute of Data Science&Technologies 数据科学与技术研究院）负责人；美国密歇根州立大学终身教授，曾担任NIPS、SIGIR等顶级国际会议领域主席和 KDD、AAAI、IJCAI等顶级会议高级程序委员会委员；ACM中国理事会常务理事。

精准匹配的目标就是试着在作用者和任务间做出最佳的任务分配。每当你分配特定任务时，即某个作用者所要实现的目标，你将得到一个不同的参数。难点就是该如何发现最佳的任务分配，从而使整体的奖励参数是互补的。很多情况下，每个任务都只能被分配给有限的作用者，或者某个作用者只被允许完成少量的任务。

淘宝“问大家”功能实现了大规模在线精准匹配，比如有些人想要购买毛衣，但他对此持有疑问，系统发现确实有机会或有潜力回答这些问题的用户后，在抽象意义上匹配这个问题，从而对问题进行精准分配。“问大家”功能可以实现这样的效果，由于阿里一方面拥有在做出最终决定之前持有疑问的不同用户所提出的问题；另一方面拥有那些有潜力的回答问题的用户数据，这样系统就可以顺利进行在线大规模精准匹配。虽然如今大多数人聚焦于学习预测，但实际上，这是一个很长的过程。我认为未来以及接下来要做的事就是充分使用大规模在线匹配预测来为任务进行最佳安排。

林智仁：单机和分布式设置对于大数据机器学习都很重要

国立台湾大学教授、IEEE Fellow、ACM Fellow、AAAI Fellow。

在大数据时代，越来越大规模的数据需要处理。数据通常太大无法存储在一个电脑中，但何時该使用分布式机器学习是个仍需探讨的课题。采样数据存储在一个电脑是一个容易和直接的选项。而且根据过去的统计，一个观点是说电脑存储增大的速度比数据增大的速度还要来的快。但另一方面，因为互联网公司的数据已经存储在分布式系统中，如果我们直接进行分布式机器学习，工作流将不会中断。我认为传统的单机设置和新的分布式设置对于大数据机器学习都很重要，但实际使用遇到的问题决定采取哪个途径。

业界、学界思想精彩碰撞

图中从左至右
鸿侠（主持人）：阿里巴巴资深算法专家
盖坤：阿里巴巴资深算法专家
李小龙：蚂蚁金服人工智能部技术总监
崔鹏：清华大学计算机系副教授
罗平：中科院计算技术研究所博士生导师、副研究员
杨洋：浙江大学计算机学院讲师

鸿侠：各位对机器学习、数据挖掘、深度学习这几个是如何理解的？

盖坤：首先说机器学习和数据挖掘。数据挖掘是一套完整的理论，根据自己的问题从数据里挖出有用的信息，用简单的统计方式或者用各种各样的方式都可以。机器学习是一套方法论，用在数据挖掘的问题里，也可以用在视觉、语音等等其他问题里面。

从现在的发展来讲，数据挖掘里面比较复杂的问题和前沿的问题，很多都和机器学习有关，这个关联或多或少。其实如果你真的在数据挖掘领域里面想要做的不管是深度也好，还是广度也好，做的比较好的话机器学习应该是必备的技能，虽然不是逻辑对等的相关关系。

再说深度学习和机器学习。现在深度学习基本上已经快占了机器学习的80%的概念和资源了，我做研究生的时候大家还不太认可深度学习，现在大家也在慢慢转变观念。近几年，深度学习展现出来其效果和复杂性，慢慢在各种领域开始展露非常强劲的性能，解决实际问题的威力比较大，所以在机器学习里面越来越重，工业界的资源也有很大的投入。

从研究角度来讲，以前做机器学习问题，从问题定义到数学定义再到求解整个一套方法其实是研究人员需要全套推导的，首先问题是什么，有了问题可能转化成一个优化问题再研究优化方法，优化问题能不能解很关键，模型很好不能解也不行。工作很重，模型设计也有制约。

我看到深度学习展现出来几个优势：

第一个，优化方法标准化，研究工作量大大降低，解开束缚。优化方法就用BP以及BP衍生类方法，有一套标准化方法，使得做模型的人不用那么关注优化方法了，虽然必要的理论认知和调试工作必须要做，但很多时候优化问题不再是一个拦路虎了，基本上是通的。

第二个，模型组件化，可以构建更复杂模型。之前从头到尾构建机器学习方法的时候，像现在深度模型的复杂度是可望不可及的。现在优化方法解耦之后，又在模型上面变成组件化。可以用现在基本单元，有LSTM等基本单元，也可以自己创造基本单元，可以在里面发挥创造力，比如新创连接函数，层数也没有太多束缚，可以组件化地构建一个非常复杂的模型。

第三个，深度的方式。虽然没有理论证明，但我认为在泛化性能上也有一定优势。理论上，潜层模型，像非常多隐层节点的单隐层网络，近邻法或者普通Kernel方法，也是有无限复杂的拟合能力的。但潜层网络更像是记忆器，只记住训练样本，会过拟合，泛化性不是很好。而深层网络，如果设计模型结构更匹配这个数据,例如深层CNN在图像上，实践中泛化能力上是不错的。

李小龙：这里我补充一下，从工业界来讲，深度学习现在可能像是黑洞，把所有机器学习的注意力都吸到里面去了，这个有好也有不好的地方。对于深度学习还是要有清醒认识，它有一些难以克服的问题：

一个是不可解释性。这就造成到底是哪个原因导致你这个模型效果好，是不知道的，比如像金融场景有一些对解释性要求非常高的，比如风险模型，为什么不给这个人贷款，用深度学习就没法做到；还有芝麻信用分，为什么他的高，为什么他的低，如果用深度学习来做，也是没法解释清楚的。这个也是实际应用中必须认识到深度学习还是有缺陷的。

第二个深度学习对数据的要求非常高。深度学习网络复杂度高，需要大量的数据，也导致了它很难在常规的小数据的场景下能够起到很好的作用。事实上，现在学术界对小数据已经开展研究，比如只需要一个样本就能够建出来较好的模型，这也是一个值得关注的方向。

鸿侠：深度学习这么火，但很多人在质疑深度学习虽然可以做到很深几十层、几百层，还有上千层但解释性却很差，但是可解释性强并且有理论保证的Hierarchical Bayesian Model却并没有火起来。各位怎么看？

崔鹏：我觉得深度学习比较吸引人的地方，就是比较标准化，明白输入输出参数的意义就可以进行研究，这个对于工业界来讲是一个好事情。但对深度学习持比较保守观点是我从教育学生的角度来思考的：我认为做学术研究应该是一步一步在走的，原来像SVM研究兴旺很多年，现在又转到深度学习上面，作为一个研究人员，我觉得最好保护自己的方式就是要用一个相对来说比较完整或者成体系的理论武装自己。

深度学习之外其他的一些前沿方法，之所以没有在产业界推广开，一方面可能的原因是理论门槛过高，怎么在可控的条件内去调整它，不容易标准化；另一方面是技术发展到一定程度，比如说刷榜刷到顶了，就需要具备其他理论基础的人来进一步研究。所以，从研究的角度，我认为越火的东西越值得我们谨慎看待。

罗平：对此，我也做了一些分析，比如语句稍微改一下，模型不知道怎么回事就不能正确反应了。也就是说，深度学习模型的鲁棒性并不好。前段时间有篇文章也写道这个问题：自动驾驶很多时候都会驾驶的很好，但如果从摄像头输入一些“人工扭曲”过的影响，可能会把车带沟里去。这就引申出model testing和model verification的问题。深度学习是一个很强大的拟合工具，但还不是一个强大的泛化工具。

鸿侠：关于研究资源利用，在工业界大家有丰富的数据和计算平台是否可以介绍一两个基于此的成功案例？对于学术界，有的时候缺乏数据计算平台又缺失，这是不是个很大的挑战？

罗平：我之前是在工业界的又转到学术界。我觉得学术研究有两种模式：一种是从数据出发发现问题，抽象问题。因为计算机本质上应用型科学，只有解决实际问题的研究才是好的研究。另一种是从模型出发，做出一些“惊世骇俗”的工作（例如PLSA和CRF的发明）。
但如果仅仅是模型上的修修补补，其实研究价值并不大，因此，一切的基础都是建立在数据之上。工业界有大量的数据，学术界确实需要与工业界深度合作；而学术界也不能只关注工业界当下的问题，必须有前瞻性和开拓性。

关于数据的问题，还有一种模式是，找一个好的切入点，大公司可能不太关注这个点，我们自己来标注一些数据，这个数据的产生也是对学术界的一个贡献。我们现在也是试图朝着这个方面努力。但不管怎样，数据都是我们的基础。

杨洋：我想起了我朋友打过一个比方，说我们是干什么的，我们更多是摸索道路，以前没有人走过，有可能通向世外桃源，有可能哪也去不了，走到底了，告诉其他人可以通往哪里，这是我们学术界在做的一件事情。对于工业界而言希望这条路通往世外桃源，走了一年发现走不了，老板们肯定不会开心，到了世外桃源以后能干什么，这里有很美丽的风景，更重要的要开垦这片新的土地，让更多的人可以来这个新地方居住起来，在开垦的过程中就不是我们学术界的资源和能力独立完成的事情，这个时候工业界人会进来。

五六年前我们跟公司做一些合作，那个时候对于同一批数据，我们实验室对这批数据的想法和公司的一些想法是有很大的差异，公司想到是做推荐算法，我们实验室就想做一些其他更好玩的事，那个时候我们没法劝说公司直接做这个问题，我们会先赢得公司的信任。现在和工业界合作，比如做推荐或者CTR预估，很多公司有非常强大的团队可以做的非常好，比我们学术界好很多，公司很多情况下也会往长远想一步，合作就可以研究一些很好玩的问题。

原文链接