国内国外机器学习中的大牛及相关资源

=======================国外====================

Machine Learning 大家(1)：M. I. Jordan (http://www.cs.berkeley.edu/~jordan/ )

在我的眼里，M Jordan无疑是武林中的泰山北斗。他师出MIT，现在在berkeley坐镇一方
，在附近的两所名校（加stanford）中都可以说无出其右者，stanford的Daphne Koller虽
然也声名遐迩，但是和Jordan比还是有一段距离。

Jordan身兼stat和cs两个系的教授，从他身上可以看出Stat和ML的融合。

Jordan最先专注于mixtures of experts，并迅速奠定了自己的地位，我们哈尔滨工业大
学的校友徐雷跟他做博后期间，也在这个方向上沾光不少。Jordan和他的弟子在很多方面作
出了开创性的成果，如spectral clustering， Graphical model和nonparametric Bayesi
an。现在后两者在ML领域是非常炙手可热的两个方向，可以说很大程度上是Jordan的lab一
手推动的。

更难能可贵的是，Jordan不仅自己武艺高强，并且揽钱有法，教育有方，手下门徒众多
且很多人成了大器，隐然成为江湖大帮派。他的弟子中有10多人任教授，个人认为他现在的
弟子中最出色的是stanford 的Andrew Ng，不过由于资历原因，现在还是assistant profes
sor，不过成为大教授指日可待；另外Tommi Jaakkola和David Blei也非常厉害，其中Tomm
i Jaakkola在mit任教而David Blei在cmu做博后，数次获得NIPS最佳论文奖，把SVM的最大
间隔方法和Markov network的structure结构结合起来，赫赫有名。还有一个博后是来自于
toronto的Yee Whye Teh，非常不错，有幸跟他打过几次交道，人非常nice。另外还有一个
博后居然在做生物信息方面的东西，看来jordan在这方面也捞了钱。这方面他有一个中国学
生Eric P. Xing(清华大学校友)，现在在cmu做assistant professor。

总的说来，我觉得Jordan现在做的主要还是graphical model和Bayesian learning ，他
去年写了一本关于graphical model的书，今年由mit press出版，应该是这个领域里程碑式
的著作。3月份曾经有人答应给我一本打印本看看，因为Jordan不让他传播电子版，但后来
好像没放在心上（可见美国人也不是很守信的），人不熟我也不好意思问着要，可以说是一
大遗憾. 另外发现一个有趣的现象就是Jordan对hierarchical情有独钟，相当多的文章都是
关于hierarchical的，所以能hierarchical大家赶快hierarchical，否则就让他给抢了。

用我朋友话说看jordan牛不牛，看他主页下面的Past students and postdocs就知道了
。

Machine Learning大家（2）：D. Koller (http://ai.stanford.edu/~koller/ )

D. Koller是1999年美国青年科学家总统奖(PECASE)得主，IJCAI 2001 Computers and
Thought Award(IJCAI计算机与思维奖，这是国际人工智能界35岁以下青年学者的最高奖)得
主，2004 World Technology Award得主。

最先知道D koller是因为她得了一个大奖，2001年IJCAI计算机与思维奖。Koller因她在
概率推理的理论和实践、机器学习、计算博弈论等领域的重要贡献，成为继Terry Winogra
d、David Marr、Tom Mitchell、Rodney Brooks等人之后的第18位获奖者。说起这个奖挺有
意思的，IJCAI终身成就奖（IJCAI Award for Research Excellence），是国际人工智能界
的最高荣誉; IJCAI计算机与思维奖是国际人工智能界35岁以下青年学者的最高荣誉。早期
AI研究将推理置于至高无上的地位; 但是1991年牛人Rodney Brooks对推理全面否定，指出
机器只能独立学习而得到了IJCAI计算机与思维奖; 但是koller却因提出了Probabilistic
Relational Models 而证明机器可以推理论知而又得到了这个奖，可见世事无绝对，科学有
轮回。

D koller的Probabilistic Relational Models在nips和icml等各种牛会上活跃了相当长
的一段时间，并且至少在实验室里证明了它在信息搜索上的价值，这也导致了她的很多学生
进入了google。虽然进入google可能没有在牛校当faculty名声响亮，但要知道google的很
多员工现在可都是百万富翁，在全美大肆买房买车的主。

Koller的研究主要都集中在probabilistic graphical model，如Bayesian网络，但这玩
意我没有接触过，我只看过几篇他们的markov network的文章，但看了也就看了，一点想法
都没有，这滩水有点深，不是我这种非科班出身的能趟的，并且感觉难以应用到我现在这个
领域中。

Koller才从教10年，所以学生还没有涌现出太多的牛人，这也是她不能跟Jordan比拟的
地方，并且由于在stanford的关系，很多学生直接去硅谷赚大钱去了，而没有在学术界开江
湖大帮派的影响，但在stanford这可能太难以办到，因为金钱的诱惑实在太大了。不过Kol
ler的一个学生我非常崇拜，叫Ben Taskar，就是我在（1）中所提到的Jordan的博后，是好
几个牛会的最佳论文奖，他把SVM的最大间隔方法和Markov network结合起来，可以说是对
structure data处理的一种标准工具，也把最大间隔方法带入了一个新的热潮，近几年很多
牛会都有这样的workshop。我最开始上Ben Taskar的在stanford的个人网页时，正赶上他
刚毕业，他的顶上有这么一句话：流言变成了现实，我终于毕业了！可见Koller是很变态
的，把自己的学生关得这么郁闷，这恐怕也是大多数女faculty的通病吧，并且估计还非常
的push！

Machine learning 大家（3）: J. D. Lafferty

大家都知道NIPS和ICML向来都是由大大小小的山头所割据，而John Lafferty无疑是里面
相当高的一座高山，这一点可从他的publication list里的NIPS和ICML数目得到明证。虽然
江湖传说计算机重镇CMU现在在走向衰落，但这无碍Lafferty拥有越来越大的影响力，翻开
AI兵器谱排名第一的journal of machine learning research的很多文章，我们都能发现a
uthor或者editor中赫然有Lafferty的名字。

Lafferty给人留下的最大的印象似乎是他2001年的conditional random fields，这篇文
章后来被疯狂引用，广泛地应用在语言和图像处理，并随之出现了很多的变体，如Kumar的
discriminative random fields等。虽然大家都知道discriminative learning好，但很久
没有找到好的discriminative方法去处理这些具有丰富的contextual inxxxxation的数据，
直到Lafferty的出现。

而现在Lafferty做的东西好像很杂，semi－supervised learning， kernel learning，
graphical models甚至manifold learning都有涉及，可能就是像武侠里一样只要学会了九
阳神功，那么其它的武功就可以一窥而知其精髓了。这里面我最喜欢的是semi－supervise
d learning，因为随着要处理的数据越来越多，进行全部label过于困难，而完全unsuperv
ised的方法又让人不太放心，在这种情况下semi－supervised learning就成了最好的。这
没有一个比较清晰的认识，不过这也给了江湖后辈成名的可乘之机。到现在为止，我觉得c
mu的semi－supervised是做得最好的，以前是KAMAL NIGAM做了开创性的工作，而现在Laff
erty和他的弟子作出了很多总结和创新。

Lafferty的弟子好像不是很多，并且好像都不是很有名。不过今年毕业了一个中国人，
Xiaojin Zhu(上海交通大学校友)，就是做semi－supervised的那个人，现在在wisconsin-
madison做assistant professor。他做了迄今为止最全面的Semi-supervised learning li
terature survey，大家可以从他的个人主页中找到。这人看着很憨厚，估计是很好的陶瓷
对象。另外我在（1）中所说的Jordan的牛弟子D Blei今年也投奔Lafferty做博后，就足见
Lafferty的牛了。

Lafferty做NLP是很好的，著名的Link Grammar Parser还有很多别的应用。其中langua
ge model在IR中应用，这方面他的另一个中国学生ChengXiang Zhai(南京大学校友，2004年
美国青年科学家总统奖(PECASE)得主)，现在在uiuc做assistant professor。

Machine learning 大家（4): Peter L. Bartlett

鄙人浅薄之见，Jordan比起同在berkeley的Peter Bartlett还是要差一个层次。Bartle
tt主要的成就都是在learning theory方面，也就是ML最本质的东西。他的几篇开创性理论
分析的论文，当然还有他的书Neural Network Learning: Theoretical Foundations。

UC Berkeley的统计系在强手如林的北美高校中一直是top3，这就足以证明其肯定是群
星荟萃，而其中，Peter L. Bartlett是相当亮的一颗星。关于他的研究，我想可以从他的
一本书里得到答案：Neural Network Learning: Theoretical Foundations。也就是说，他
主要做的是Theoretical Foundations。基础理论虽然没有一些直接可面向应用的算法那样
引人注目，但对科学的发展实际上起着更大的作用。试想vapnik要不是在VC维的理论上辛苦
了这么多年，怎么可能有SVM的问世。不过阳春白雪固是高雅，但大多数人只能听懂下里巴
人，所以Bartlett的文章大多只能在做理论的那个圈子里产生影响，而不能为大多数人所广
泛引用。

Bartlett在最近两年做了大量的Large margin classifiers方面的工作，如其converge
nce rate和generalization bound等。并且很多是与jordan合作，足见两人的工作有很多相
通之处。不过我发现Bartlett的大多数文章都是自己为第一作者，估计是在教育上存在问题
吧，没带出特别牛的学生出来。

Bartlett的个人主页的talk里有很多值得一看的slides,如Large Margin Classifiers:
Convexity and Classification；Large Margin Methods for Structured Classificati
on: Exponentiated Gradient Algorithms。大家有兴趣的话可以去下来看看。

Machine learning 大家（5): Michael Collins

Michael Collins (http://people.csail.mit.edu/mcollins/
自然语言处理(NLP)江湖的第一高人。出身Upenn，靠一身叫做Collins Parser的武功在江湖
上展露头脚。当然除了资质好之外，其出身也帮了不少忙。早年一个叫做Mitchell P. Mar
cus的师傅传授了他一本葵花宝典-Penn Treebank。从此，Collins整日沉迷于此，终于练成
盖世神功。

学成之后，Collins告别师傅开始闯荡江湖，投入了一个叫AT&T Labs Research的帮会，
并有幸结识了Robert Schapire、Yoram Singer等众多高手。大家不要小瞧这个叫AT&T Lab
s Research的帮会，如果谁没有听过它的大名总该知道它的同父异母的兄弟Bell Labs吧。

言归正传，话说Collins在这里度过了3年快乐的时光。其间也奠定了其NLP江湖老大的地
位。并且练就了Discriminative Reranking， Convolution Kernels，Discriminative Tr
aining Methods for Hidden Markov Models等多种绝技。然而，世事难料，怎奈由于帮会
经营不善，这帮大牛又不会为帮会拼杀，终于被一脚踢开，大家如鸟兽散了。Schapire去了
Princeton， Singer 也回老家以色列了。Collins来到了MIT，成为了武林第一大帮的六袋
长老，并教授一门叫做Machine Learning Approaches for NLP (http://www.ai.mit.edu/
courses/6.891-nlp/) 的功夫。虽然这一地位与其功力极不相符，但是这并没有打消Colli
ns的积极性，通过其刻苦打拼，终于得到了一个叫Sloan Research Fellow的头衔，并于今
年7月，光荣的升任7袋Associate Professor。

在其下山短短7年时间内，Collins共获得了4次世界级武道大会冠军(EMNLP2002, 2004,
UAI2004, 2005)。相信年轻的他，总有一天会一统丐帮，甚至整个江湖。

看过Collins和别人合作的一篇文章，用conditional random fields 做object recogn

tion。还这么年轻，admire to death！

=======================国内====================

之前自己一直想总结一下国内搞机器学习和数据挖掘的大牛，但是自己太懒了。所以没搞...

最近看到了下面转载的这篇博文，感觉总结的比较全面了。

个人认为，但从整体研究实力来说，机器学习和数据挖掘方向国内最强的地方还是在MSRA，

那边的相关研究小组太多，很多方向都能和数据挖掘扯上边。这里我再补充几个相关研究方向

的年轻老师和学者吧。

蔡登：http://www.cad.zju.edu.cn/home/dengcai/,Han Jiawei老师的学生，博士毕业后回浙大

任教，也算是国内年轻一代的牛人了。

万小军：https://sites.google.com/site/wanxiaojun1979/，得翻墙才能看到主页。主要

研究方向是文本挖掘和语义计算。自然语言方向好会议发了很多文章。

张磊：http://research.microsoft.com/en-us/um/people/leizhang/

-----------------------------------------------------------------------------------------------

原文地址：http://blog.csdn.net/playoffs/article/details/7588597

李航：http://research.microsoft.com/en- us/people/hangli/，是MSRA Web Search and

Mining Group高级研究员和主管，主要研究领域是信息检索，自然语言处理和统计学习。

近年来，主要与人合作使用机器学习方法对信息检索中排序，相关性等问题的研究。曾在

人大听过一场他的讲座，对实际应用的问题抽象，转化和解决能力值得学习。

周志华：http://cs.nju.edu.cn/zhouzh/，是南京大学的杰青，机器学习和数据挖掘方面

国内的领军人物，其好几个研究生都进入了美国一流高校如uiuc，cmu等学习和深造。周教授

在半监督学习，multi-label学习和集成学习方面在国际上有一定的影响力。另外，他也

是ACML的创始人。人也很nice，曾经发邮件咨询过一个naive的问题，周老师还在百忙之中

回复了我，并对我如何发邮件给了些许建议。

杨强：http://www.cse.ust.hk/~qyang/，香港科技大学教授，也是KDD 2012的会议主席，

可见功力非同一般。杨教授是迁移学习的国际领军人物，曾经的中国第一位acm全球冠军上

交的戴文渊硕士期间就是跟他合作发表了一系列高水平的文章。还有，杨教授曾有一个关

于机器学习和数据挖掘有意思的比喻：比如你训练一只狗，若干年后，如果它忽然有一天能

帮你擦鞋洗衣服，那么这就是数据挖掘；要是忽然有一天，你发现狗发装成一个老太婆

消失了，那么这就是机器学习。

李建中：http://db.hit.edu.cn/jianzhongli/，哈工大和黑大共有教授，是分布式数据库

的领军人物。近年来，其团队在不确定性数据，sensor network方面也发表了一系列有名

文章。李教授为人师表，教书育人都做得了最好，在圈内是让人称道的好老师和好学者。

唐杰：http://keg.cs.tsinghua.edu.cn/jietang/，清华大学副教授，是图挖掘方面的专家。

他主持设计和实现的Arnetminer是国内领先的图挖掘系统，该系统也是多个会议的支持商。

张钹：http://www.csai.tsinghua.edu.cn/personal_homepage/zhang_bo/index.html 清华

大学教授，中科院院士，。现任清华大学信息技术研究院指导委员会主任，微软亚洲研究院

技术顾问等。主要从事人工智能、神经网络、遗传算法、智能机器人、模式识别以及智能控

制等领域的研究工作。在过去二十多年中，张钹教授系统地提出了问题求解的商空间理
论。近年来，他建立了神经与认知计算研究中心以及多媒体信息处理研究组。该研究组已在

图像和视频的分析与检索方面取得一些重要研究成果。

刘铁岩：http://research.microsoft.com/en-us/people/tyliu/ MSRA研究主管，

是learning to rank的国际知名学者。近年逐步转向管理，研究兴趣则开始关注计算广告学方面。

王海峰：http://ir.hit.edu.cn/~wanghaifeng/ 信息检索，自然语言处理，机器翻译方面

的专家，ACL的副主席，百度高级科学家。近年，在百度主持研发了百度翻译产品。

何晓飞：http://people.cs.uchicago.edu/~xiaofei/ 浙江大学教授，多媒体处理，

图像检索以及流型学习的国际领先学者。

朱军：http://www.ml-thu.net/~jun/ 清华大学副教授，机器学习绝对重量级新星。

主要研究领域是latent variable models, large-margin learning, Bayesian nonparametrics,

and sparse learning in high dimensions. 他也是今年龙星计划的机器学习领域的主讲人之一。

----------------------------------------------------------------------------------------------

吴军：http://www.cs.jhu.edu/~junwu/ 腾讯副总裁，前google研究员。

著名《数学之美》和《浪潮之巅》系列的作者。

张栋：http://weibo.com/machinelearning 前百度科学家和google研究员，机器学习工业界的代表人物之一。

戴文渊：http://apex.sjtu.edu.cn/apex_wiki/Wenyuan_Dai 现百度凤巢ctr预估组leader。

前ACM大赛冠军，硕士期间一系列transfer learning方面的高水平论文让人瞠目结舌。

======================资源====================

以前转过一个计算机视觉领域内的牛人简介，现在转一个更宽范围内的牛人简介：

http://people.cs.uchicago.edu/~niyogi/

http://www.cs.uchicago.edu/people/

http://pages.cs.wisc.edu/~jerryzhu/

http://www.kyb.tuebingen.mpg.de/~chapelle

http://people.cs.uchicago.edu/~xiaofei/

http://www.cs.uiuc.edu/homes/dengcai2/

http://www.kyb.mpg.de/~bs

http://research.microsoft.com/~denzho/

http://www-users.cs.umn.edu/~kumar/dmbook/index.php#item5

(resources for the book of the introduction of data mining by Pang-ning Tan et.al. )（国内已经有相应的中文版）

http://www.cs.toronto.edu/~roweis/lle/publications.html (lle算法源代码及其相关论文)

http://dataclustering.cse.msu.edu/index.html#software（data clustering）

http://www.cs.toronto.edu/~roweis/ (里面有好多资源)

http://www.cse.msu.edu/~lawhiu/ (manifold learning)

http://www.math.umn.edu/~wittman/mani/ (manifold learning demo in matlab)

http://www.iipl.fudan.edu.cn/~zhangjp/literatures/MLF/INDEX.HTM (manifold learning in matlab)

http://videolectures.net/mlss05us_belkin_sslmm/ (semi supervised learning with manifold method by Belkin)

http://isomap.stanford.edu/ (isomap主页)

http://web.mit.edu/cocosci/josh.html MIT TENENBAUM J B主页

http://web.engr.oregonstate.edu/~tgd/ （国际著名的人工智能专家 Thomas G. Dietterich）

http://www.cs.berkeley.edu/~jordan/ （MIchael I.Jordan）

http://www.cs.cmu.edu/~awm/ (Andrew W. Moore's homepage)

http://learning.cs.toronto.edu/ （加拿大多伦多大学机器学习小组）

http://www.cs.cmu.edu/~tom/ （Tom Mitchell，里面有与教材匹配的slide。）

*Kernel Methods*
Alexander J. Smola Maximum Mean Discrepancy (MMD), Hilbert-Schmidt Independence Criterion (HSIC) Bernhard Schölkopf Kernel PCA James T Kwok Pre-Image, Kernel Learning, Core Vector Machine(CVM) Jieping Ye Kernel Learning, Linear Discriminate Analysis, Dimension Deduction
*Multi-Task Learning*
Andreas Argyriou Multi-Task Feature Learning Charles A. Micchelli Multi-Task Feature Learning, Multi-Task Kernel Learning Massimiliano Pontil Multi-Task Feature Learning Yiming Ying Multi-Task Feature Learning, Multi-Task Kernel Learning
*Semi-supervised Learning*
Partha Niyogi Manifold Regularization, Laplacian Eigenmaps Mikhail Belkin Manifold Regularization, Laplacian Eigenmaps Vikas Sindhwani Manifold Regularization Xiaojin Zhu Graph-based Semi-supervised Learning
*Multiple Instance Learning*
Sally A Goldman EM-DD, DD-SVM, Multiple Instance Semi Supervised Learning(MISS)
*Dimensionality Reduction*
Neil Lawrence Gaussian Process Latent Variable Models (GPLVM) Lawrence K. Saul Maximum Variance Unfolding(MVU), Semidefinite Embedding(SDE)
*Machine Learning*
Michael I. Jordan Graphical Models John Lafferty Diffusion Kernels, Graphical Models Daphne Koller Logic, Probability Zhang Tong Theoretical Analysis of Statistical Algorithms, Multi-task Learning, Graph-based Semi-supervised Learning Zoubin Ghahramani Bayesian approaches to machine learning Machine Learning @ Toronto
*Statitiscal Machine Learning & Optimization*
Jerome H Friedman GLasso, Statistical view of AdaBoost, Greedy Function Approximation Thevor Hastie Lasso Stephen Boyd Convex Optimization C.J Lin Libsvm