=======================国外====================
Machine Learning 大家(1):M. I. Jordan (http://www.cs.berkeley.edu/~jordan/ ),在附近的两所名校(加stanford)中都可以说无出其右者,stanford的Daphne Koller虽
然也声名遐迩,但是和Jordan比还是有一段距离。
学的校友徐雷跟他做博后期间,也在这个方向上沾光不少。Jordan和他的弟子在很多方面作
出了开创性的成果,如spectral clustering, Graphical model和nonparametric Bayesi
an。现在后两者在ML领域是非常炙手可热的两个方向,可以说很大程度上是Jordan的lab一
手推动的。
且很多人成了大器,隐然成为江湖大帮派。他的弟子中有10多人任教授,个人认为他现在的
弟子中最出色的是stanford 的Andrew Ng,不过由于资历原因,现在还是assistant profes
sor,不过成为大教授指日可待;另外Tommi Jaakkola和David Blei也非常厉害,其中Tomm
i Jaakkola在mit任教而David Blei在cmu做博后,数次获得NIPS最佳论文奖,把SVM的最大
间隔方法和Markov network的structure结构结合起来,赫赫有名。 还有一个博后是来自于
toronto的Yee Whye Teh,非常不错,有幸跟他打过几次交道,人非常nice。另外还有一个
博后居然在做生物信息方面的东西,看来jordan在这方面也捞了钱。这方面他有一个中国学
生Eric P. Xing(清华大学校友),现在在cmu做assistant professor。
去年写了一本关于graphical model的书,今年由mit press出版,应该是这个领域里程碑式
的著作。3月份曾经有人答应给我一本打印本看看,因为Jordan不让他传播电子版,但后来
好像没放在心上(可见美国人也不是很守信的),人不熟我也不好意思问着要,可以说是一
大遗憾. 另外发现一个有趣的现象就是Jordan对hierarchical情有独钟,相当多的文章都是
关于hierarchical的,所以能hierarchical大家赶快hierarchical,否则就让他给抢了。
。
Machine Learning大家(2):D. Koller (http://ai.stanford.edu/~koller/ )
Thought Award(IJCAI计算机与思维奖,这是国际人工智能界35岁以下青年学者的最高奖)得
主,2004 World Technology Award得主。
概率推理的理论和实践、机器学习、计算博弈论等领域的重 要贡献,成为继Terry Winogra
d、David Marr、Tom Mitchell、Rodney Brooks等人之后的第18位获奖者。说起这个奖挺有
意思的,IJCAI终身成就奖(IJCAI Award for Research Excellence),是国际人工智能界
的最高荣誉; IJCAI计算机与思维奖是国际人工智能界35岁以下青年学者的最高荣誉。早期
AI研究将推理置于至高无上的地位; 但是1991年牛人Rodney Brooks对推理全面否定,指出
机器只能独立学习而得到了IJCAI计算机与思维奖; 但是koller却因提出了Probabilistic
Relational Models 而证明机器可以推理论知而又得到了这个奖,可见世事无绝对,科学有
轮回。
的一段时间,并且至少在实验室里证明了它在信息搜索上的价值,这也导致了她的很多学生
进入了google。虽然进入google可能没有在牛校当faculty名声响亮,但要知道google的很
多员工现在可都是百万富翁,在全美大肆买房买车的主。
意我没有接触过,我只看过几篇他们的markov network的文章,但看了也就看了,一点想法
都没有,这滩水有点深,不是我这种非科班出身的能趟的,并且感觉难以应用到我现在这个
领域中。
地方,并且由于在stanford的关系,很多学生直接去硅谷赚大钱去了,而没有在学术界开江
湖大帮派的影响,但在stanford这可能太难以办到,因为金钱的诱惑实在太大了。不过Kol
ler的一个学生我非常崇拜,叫Ben Taskar,就是我在(1)中所提到的Jordan的博后,是好
几个牛会的最佳论文奖,他把SVM的最大间隔方法和Markov network结合起来,可以说是对
structure data处理的一种标准工具,也把最大间隔方法带入了一个新的热潮,近几年很多
牛会都有这样的workshop。 我最开始上Ben Taskar的在stanford的个人网页时,正赶上他
刚毕业,他的顶上有这么一句话:流言变成了现实,我终于毕业了! 可见Koller是很变态
的,把自己的学生关得这么郁闷,这恐怕也是大多数女faculty的通病吧,并且估计还非常
的push!
Machine learning 大家(3): J. D. Lafferty
相当高的一座高山,这一点可从他的publication list里的NIPS和ICML数目得到明证。虽然
江湖传说计算机重镇CMU现在在走向衰落,但这无碍Lafferty拥有越来越大的影响力,翻开
AI兵器谱排名第一的journal of machine learning research的很多文章,我们都能发现a
uthor或者editor中赫然有Lafferty的名字。
章后来被疯狂引用,广泛地应用在语言和图像处理,并随之出现了很多的变体,如Kumar的
discriminative random fields等。虽然大家都知道discriminative learning好,但很久
没有找到好的discriminative方法去处理这些具有丰富的contextual inxxxxation的数据,
直到Lafferty的出现。
graphical models甚至manifold learning都有涉及,可能就是像武侠里一样只要学会了九
阳神功,那么其它的武功就可以一窥而知其精髓了。这里面我最喜欢的是semi-supervise
d learning,因为随着要处理的数据越来越多,进行全部label过于困难,而完全unsuperv
ised的方法又让人不太放心,在这种情况下semi-supervised learning就成了最好的。这
没有一个比较清晰的认识,不过这也给了江湖后辈成名的可乘之机。到现在为止,我觉得c
mu的semi-supervised是做得最好的,以前是KAMAL NIGAM做了开创性的工作,而现在Laff
erty和他的弟子作出了很多总结和创新。
Xiaojin Zhu(上海交通大学校友),就是做semi-supervised的那个人,现在在wisconsin-
madison做assistant professor。他做了迄今为止最全面的Semi-supervised learning li
terature survey, 大家可以从他的个人主页中找到。这人看着很憨厚,估计是很好的陶瓷
对象。另外我在(1)中所说的Jordan的牛弟子D Blei今年也投奔Lafferty做博后,就足见
Lafferty的牛了。
ge model在IR中应用,这方面他的另一个中国学生ChengXiang Zhai(南京大学校友,2004年
美国青年科学家总统奖(PECASE)得主),现在在uiuc做assistant professor。
Machine learning 大家(4): Peter L. Bartlett
tt主要的成就都是在learning theory方面,也就是ML最本质的东西。他的几篇开创性理论
分析的论文,当然还有他的书Neural Network Learning: Theoretical Foundations。
星荟萃,而其中,Peter L. Bartlett是相当亮的一颗星。关于他的研究,我想可以从他的
一本书里得到答案:Neural Network Learning: Theoretical Foundations。也就是说,他
主要做的是Theoretical Foundations。基础理论虽然没有一些直接可面向应用的算法那样
引人注目,但对科学的发展实际上起着更大的作用。试想vapnik要不是在VC维的理论上辛苦
了这么多年,怎么可能有SVM的问世。不过阳春白雪固是高雅,但大多数人只能听懂下里巴
人,所以Bartlett的文章大多只能在做理论的那个圈子里产生影响,而不能为大多数人所广
泛引用。
nce rate和generalization bound等。并且很多是与jordan合作,足见两人的工作有很多相
通之处。不过我发现Bartlett的大多数文章都是自己为第一作者,估计是在教育上存在问题
吧,没带出特别牛的学生出来。
Convexity and Classification;Large Margin Methods for Structured Classificati
on: Exponentiated Gradient Algorithms。大家有兴趣的话可以去下来看看。
Machine learning 大家(5):
自然语言处理(NLP)江湖的第一高人。出身Upenn,靠一身叫做Collins Parser的武功在江湖
上展露头脚。当然除了资质好之外,其出身也帮了不少忙。早年一个叫做Mitchell P. Mar
cus的师傅传授了他一本葵花宝典-Penn Treebank。从此,Collins整日沉迷于此,终于练成
盖世神功。
并有幸结识了Robert Schapire、Yoram Singer等众多高手。大家不要小瞧这个叫AT&T Lab
s Research的帮会,如果谁没有听过它的大名总该知道它的同父异母的兄弟Bell Labs吧。
位。并且练就了Discriminative Reranking, Convolution Kernels,Discriminative Tr
aining Methods for Hidden Markov Models等多种绝技。然而,世事难料,怎奈由于帮会
经营不善,这帮大牛又不会为帮会拼杀,终于被一脚踢开,大家如鸟兽散了。Schapire去了
Princeton, Singer 也回老家以色列了。Collins来到了MIT,成为了武林第一大帮的六袋
长老,并教授一门叫做Machine Learning Approaches for NLP (http://www.ai.mit.edu/
courses/6.891-nlp/) 的功夫。虽然这一地位与其功力极不相符,但是这并没有打消Colli
ns的积极性,通过其刻苦打拼,终于得到了一个叫Sloan Research Fellow的头衔,并于今
年7月,光荣的升任7袋Associate Professor。
UAI2004, 2005)。相信年轻的他,总有一天会一统丐帮,甚至整个江湖。
tion。还这么年轻,admire to death!
=======================国内====================
之前自己一直想总结一下国内搞机器学习和数据挖掘的大牛,但是自己太懒了。所以没搞...
最近看到了下面转载的这篇博文,感觉总结的比较全面了。
那边的相关研究小组太多,很多方向都能和数据挖掘扯上边。这里我再补充几个相关研究方向
的年轻老师和学者吧。
蔡登:http://www.cad.zju.edu.cn/home/dengcai/,Han Jiawei老师的学生,博士毕业后回浙大
任教,也算是国内年轻一代的牛人了。
万小军:https://sites.google.com/site/wanxiaojun1979/,得翻墙才能看到主页。主要
研究方向是文本挖掘和语义计算。自然语言方向好会议发了很多文章。
张磊:http://research.microsoft.com/en-us/um/people/leizhang/
-----------------------------------------------------------------------------------------------
原文地址:http://blog.csdn.net/playoffs/article/details/7588597
李航:http://research.microsoft.com/en- us/people/hangli/,是MSRA Web Search and
Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习。
近年来,主要与人合作使用机器学习方法对信息检索中排序,相关性等问题的 研究。曾在
人大听过一场他的讲座,对实际应用的问题抽象,转化和解决能力值得学习。
周志华:http://cs.nju.edu.cn/zhouzh/,是南京大学的杰青,机器学习和数据挖掘方面
国内的领军人物,其好几个研究生都 进入了美国一流高校如uiuc,cmu等学习和深造。周教授
在半监督学习,multi-label学习和集成学习方面在国际上有一定的影响力。另外,他也
是ACML的创始人。人也很nice,曾经发邮件咨询过一个naive的问题,周老师还在百忙之中
回复了我,并对我如何发邮件给了些许建议。
杨强:http://www.cse.ust.hk/~qyang/,香港科技大学教 授,也是KDD 2012的会议主席,
可见功力非同一般。杨教授是迁移学习的国际领军人物,曾经的中国第一位acm全球冠军上
交的戴文渊硕士期间就是跟他合作发表了一系列 高水平的文章。还有,杨教授曾有一个关
于机器学习和数据挖掘有意思的比喻:比如你训练一只狗,若干年后,如果它忽然有一天能
帮你擦鞋洗衣服,那么这就是数 据挖掘;要是忽然有一天,你发现狗发装成一个老太婆
消失了,那么这就是机器学习。
李建中:http://db.hit.edu.cn/jianzhongli/,哈工大和黑大共有教授,是分布式数据库
的领军人物。近年来,其团队 在不确定性数据,sensor network方面也发表了一系列有名
文章。李教授为人师表,教书育人都做得了最好,在圈内是让人称道的好老师和好学者。
唐杰:http://keg.cs.tsinghua.edu.cn/jietang/,清华大学副教授,是图挖掘方面的专家。
他主持设计和实现的Arnetminer是国内领先的图挖掘系统,该系统也是多个会议的支持商。
张钹:http://www.csai.tsinghua.edu.cn/personal_homepage/zhang_bo/index.html 清华
大学教授,中科院院士,。现任清华大学信息技术研究院指导委员会主任,微软亚洲研究院
技术顾问等。主要从事人工智能、神经网络、遗传算法、智能机器 人、模式识别以及智能控
制等领域的研究工作。在过去二十多年中,张钹教授系统地提出了问题求解的商空间理
论。近年来,他建立了神经与认知计算研究中心以及多媒体信息处理研究组。该研究组已在
图像和视频的分析与检索方面取得一些重要研究成果。
刘铁岩:http://research.microsoft.com/en-us/people/tyliu/ MSRA研究主管,
是learning to rank的国际知名学者。近年逐步转向管理,研究兴趣则开始关注计算广告学方面。
王海峰:http://ir.hit.edu.cn/~wanghaifeng/ 信息检索,自然语言处理,机器翻译方面
的专家,ACL的副主席,百度高级科学家。近年,在百度主持研发了百度翻译产品。
何晓飞:http://people.cs.uchicago.edu/~xiaofei/ 浙江大学教授,多媒体处理,
图像检索以及流型学习的国际领先学者。
朱军:http://www.ml-thu.net/~jun/ 清华大学副教授,机器学习绝对重量级新星。
主要研究领域是latent variable models, large-margin learning, Bayesian nonparametrics,
and sparse learning in high dimensions. 他也是今年龙星计划的机器学习领域的主讲人之一。
----------------------------------------------------------------------------------------------
吴军:http://www.cs.jhu.edu/~junwu/ 腾讯副总裁,前google研究员。
著名《数学之美》和《浪潮之巅》系列的作者。
张栋:http://weibo.com/machinelearning 前百度科学家和google研究员,机器学习工业界的代表人物之一。
戴文渊:http://apex.sjtu.edu.cn/apex_wiki/Wenyuan_Dai 现百度凤巢ctr预估组leader。
前ACM大赛冠军,硕士期间一系列transfer learning方面的高水平论文让人瞠目结舌。
======================资源====================
以前转过一个计算机视觉领域内的牛人简介,现在转一个更宽范围内的牛人简介:
http://people.cs.uchicago.edu/~niyogi/
http://www.cs.uchicago.edu/people/
http://pages.cs.wisc.edu/~jerryzhu/
http://www.kyb.tuebingen.mpg.de/~chapelle
http://people.cs.uchicago.edu/~xiaofei/
http://www.cs.uiuc.edu/homes/dengcai2/
http://research.microsoft.com/~denzho/
http://www-users.cs.umn.edu/~kumar/dmbook/index.php#item5
(resources for the book of the introduction of data mining by Pang-ning Tan et.al. )(国内已经有相应的中文版)
http://www.cs.toronto.edu/~roweis/lle/publications.html (lle算法源代码及其相关论文)
http://dataclustering.cse.msu.edu/index.html#software(data clustering)
http://www.cs.toronto.edu/~roweis/ (里面有好多资源)
http://www.cse.msu.edu/~lawhiu/ (manifold learning)
http://www.math.umn.edu/~wittman/mani/ (manifold learning demo in matlab)
http://www.iipl.fudan.edu.cn/~zhangjp/literatures/MLF/INDEX.HTM (manifold learning in matlab)
http://videolectures.net/mlss05us_belkin_sslmm/ (semi supervised learning with manifold method by Belkin)
http://isomap.stanford.edu/ (isomap主页)
http://web.mit.edu/cocosci/josh.html MIT TENENBAUM J B主页
http://web.engr.oregonstate.edu/~tgd/ (国际著名的人工智能专家 Thomas G. Dietterich)
http://www.cs.berkeley.edu/~jordan/ (MIchael I.Jordan)
http://www.cs.cmu.edu/~awm/ (Andrew W. Moore's homepage)
http://learning.cs.toronto.edu/ (加拿大多伦多大学机器学习小组)
http://www.cs.cmu.edu/~tom/ (Tom Mitchell,里面有与教材匹配的slide。)
Kernel Methods | |
Maximum Mean Discrepancy (MMD), Hilbert-Schmidt Independence Criterion (HSIC) Kernel PCA Pre-Image, Kernel Learning, Core Vector Machine(CVM) Kernel Learning, Linear Discriminate Analysis, Dimension Deduction | |
Multi-Task Learning | |
Multi-Task Feature Learning Multi-Task Feature Learning, Multi-Task Kernel Learning Multi-Task Feature Learning Multi-Task Feature Learning, Multi-Task Kernel Learning
| |
Semi-supervised Learning | |
Partha NiyogiManifold Regularization, Laplacian Eigenmaps Mikhail BelkinManifold Regularization, Laplacian Eigenmaps Vikas SindhwaniManifold Regularization Xiaojin ZhuGraph-based Semi-supervised Learning | |
Multiple Instance Learning | |
EM-DD, DD-SVM, Multiple Instance Semi Supervised Learning(MISS) | |
Dimensionality Reduction | |
Neil LawrenceGaussian Process Latent Variable Models (GPLVM) Lawrence K. SaulMaximum Variance Unfolding(MVU), Semidefinite Embedding(SDE) | |
Machine Learning | |
Graphical Models Diffusion Kernels, Graphical Models Logic, Probability Zhang TongTheoretical Analysis of Statistical Algorithms, Multi-task Learning, Graph-based Semi-supervised Learning Zoubin GhahramaniBayesian approaches to machine learning Machine Learning @ Toronto | |
Statitiscal Machine Learning & Optimization | |
GLasso, Statistical view of AdaBoost, Greedy Function Approximation Lasso Convex Optimization Libsvm |
http://www.dice.ucl.ac.be/mlg/
半监督流形学习(流形正则化)
http://manifold.cs.uchicago.edu/
模式识别和神经网络工具箱
http://www.ncrg.aston.ac.uk/netlab/index.php
机器学习开源代码
http://mloss.org/software/tags/large-scale-learning/
统计学开源代码
matlab各种工具箱链接
http://www.tech.plym.ac.uk/spmc/links/matlab/matlab_toolbox.html
统计学学习经典在线教材
机器学习开源源代码