机器学习/数据挖掘之中国大牛
推荐几个机器学习和数据挖掘领域相关的中国大牛:
李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习。近年来,主要与人合作使用机器学习方法对信息检索中排序,相关性等问题的研究。曾在人大听过一场他的讲座,对实际应用的问题抽象,转化和解决能力值得学习。
周志华:http://cs.nju.edu.cn/zhouzh/,是南京大学的杰青,机器学习和数据挖掘方面国内的领军人物,其好几个研究生都进入了美国一流高校如uiuc,cmu等学习和深造。周教授在半监督学习,multi-label学习和集成学习方面在国际上有一定的影响力。另外,他也是ACML的创始人。人也很nice,曾经发邮件咨询过一个naive的问题,周老师还在百忙之中回复了我,并对我如何发邮件给了些许建议。
杨强:http://www.cse.ust.hk/~qyang/,香港科技大学教授,也是KDD 2012的会议主席,可见功力非同一般。杨教授是迁移学习的国际领军人物,曾经的中国第一位acm全球冠军上交的戴文渊硕士期间就是跟他合作发表了一系列高水平的文章。还有,杨教授曾有一个关于机器学习和数据挖掘有意思的比喻:比如你训练一只狗,若干年后,如果它忽然有一天能帮你擦鞋洗衣服,那么这就是数据挖掘;要是忽然有一天,你发现狗发装成一个老太婆消失了,那么这就是机器学习。
李建中:http://db.hit.edu.cn/jianzhongli/,哈工大和黑大共有教授,是分布式数据库的领军人物。近年来,其团队在不确定性数据,sensor network方面也发表了一系列有名文章。李教授为人师表,教书育人都做得了最好,在圈内是让人称道的好老师和好学者。
唐杰:http://keg.cs.tsinghua.edu.cn/jietang/,清华大学副教授,是图挖掘方面的专家。他主持设计和实现的Arnetminer是国内领先的图挖掘系统,该系统也是多个会议的支持商。
张钹:http://www.csai.tsinghua.edu.cn/personal_homepage/zhang_bo/index.html 清华大学教授,中科院院士,。现任清华大学信息技术研究院指导委员会主任,微软亚洲研究院技术顾问等。主要从事人工智能、神经网络、遗传算法、智能机器人、模式识别以及智能控制等领域的研究工作。在过去二十多年中,张钹教授系统地提出了问题求解的商空间理
论。近年来,他建立了神经与认知计算研究中心以及多媒体信息处理研究组。该研究组已在图像和视频的分析与检索方面取得一些重要研究成果。
刘铁岩:http://research.microsoft.com/en-us/people/tyliu/ MSRA研究主管,是learning to rank的国际知名学者。近年逐步转向管理,研究兴趣则开始关注计算广告学方面。
王海峰:http://ir.hit.edu.cn/~wanghaifeng/ 信息检索,自然语言处理,机器翻译方面的专家,ACL的副主席,百度高级科学家。近年,在百度主持研发了百度翻译产品。
何晓飞:http://people.cs.uchicago.edu/~xiaofei/ 浙江大学教授,多媒体处理,图像检索以及流型学习的国际领先学者。
朱军:http://www.ml-thu.net/~jun/ 清华大学副教授,机器学习绝对重量级新星。主要研究领域是latent variable models, large-margin learning, Bayesian nonparametrics, and sparse learning in high dimensions. 他也是今年龙星计划的机器学习领域的主讲人之一。
吴军:http://www.cs.jhu.edu/~junwu/ 腾讯副总裁,前google研究员。著名《数学之美》和《浪潮之巅》系列的作者。
张栋:http://weibo.com/machinelearning 前百度科学家和google研究员,机器学习工业界的代表人物之一。
戴文渊:http://apex.sjtu.edu.cn/apex_wiki/Wenyuan_Dai 现百度凤巢ctr预估组leader。前ACM大赛冠军,硕士期间一系列transfer learning方面的高水平论文让人瞠目结舌。
更多机器学习参见链接:http://www.guzili.com/?p=88
以下搜索结果来自所有链接的标题、关键字等
Tutorial:
Website:
Group:
Posters:
Some papers index:
Some Engines:
Mahout (including Taste):
Matrix Factorization
http://www.albertauyeung.com/mf.php
http://blog.smellthedata.com/2009/06/netflix-prize-tribute-recommendation.html
Netflix paper
http://blog.csdn.net/wuzh670/article/details/8280103
Machine Learning
- scikit-learn: machine learning library for Python. Extremely recommended for experiment use!
- mahout:apache下的一个比较大的机器学习开源库,大部分代码基于hadoop运行,用java编写。有推荐系统、一些常用的机器学习算法等。
- Weka.
- GNU Octave, introduced by Andrew Ng in his machine learning class on Coursera.org. An interactive numberical computing tool.
- GraphLab, a parallel framework for machine learning.
-Classification
- SVM: LIBSVM、SVMLight、SVMmulticlass
-Graphical Model
-Computing and Optimization
- LAPACK, Linear Algebra Pacage. Written in Fortran 90 and C++.
-Others
- The Toolkit for Advanced Discriminative Modeling (TADM) is a C++ implementation for estimating the parameters of discriminative models, such as maximum entropy models. There is also a maximum entropy model resource linkedby it.
Graph and Network Mining
- SNAP, created by Jure at Stanford, a comprehensive network analysis tool.
- GraphChi, Disk-based large-scale graph computation.
- CFinder,网络中的重叠社区发现与可视化。
- Metis, Graph partition toolkit。
Information Retrieval
- lucene:apache下的一个全文搜索引擎,用java编写。没用过。
Information Network
- DBLP http://www.informatik.uni-trier.de/~ley/db/
- proximity DBLP http://kdl.cs.umass.edu/data/dblp/dblp-info.html
- DBLP-Citation-Network http://arnetminer.org/citation
- KDD-2011 http://www.cs.uiuc.edu/~hbdeng/data/kdd2011.htm
- CiteSeer (hardly) http://csxstatic.ist.psu.edu/about/data
- CiteSeer dumped http://martinharrigan.blogspot.com/2008/07/citeseers-dataset.html
- Cora (hardly) http://people.cs.umass.edu/~mccallum/data.html
- IMDB http://www.imdb.com/interfaces/
Social Network
- Stanford large network dataset (contains lots of network dataset):http://snap.stanford.edu/data/
- Stanford class resources http://snap.stanford.edu/na09/resources.html
- ICWSM twitter dataset: http://twitter.mpi-sws.org/data-icwsm2010.html
- EBSN - Event-based social network dataset: http://www.largenetwork.org/ebsn
- Other social network dataset: Slashdot, Enron email, Mit mobile, Epinions reviews.
Sentiment and Option Mining
- MPQA http://www.cs.pitt.edu/mpqa/index.html
- Bing Liu's homepage
- Movie Review http://www.cs.cornell.edu/people/pabo/movie-review-data/
- Lee's homepage
- twitter sentiment: http://www.sananalytics.com/lab/twitter-sentiment/
Recommendation
Machine Learning
- UCI dataset http://archive.ics.uci.edu/ml/datasets.html
Audio Retrieval
- CAL-500: http://twitterdata.org/
- Million song dataset http://labrosa.ee.columbia.edu/millionsong/
Miscellaneous1
- A lot graph dataset including several cups, twitter etchttp://graphlab.org/downloads/datasets/
- Several graph dataset http://law.di.unimi.it/datasets.php
- Delicious/Flikr/Last.FM etc http://www.tagora-project.eu/data/
- A small dataset about linkshttp://www.cs.umd.edu/projects/linqs/projects/lbc/index.html
- A small dataset including citeseerx/imdb http://komarix.org/ac/ds/
Miscellaneous2
Only user-object
- Amazon
Both user-user and user-object
single-type user netwrok
- Flickr, Youtube, twitter
signed user network
- Epinion, Slashdot, Ciao
Multi-type user network
- Facebook, Google plus
正如在线视频学习网站一文中说的,开放课程主要有三个获取途径:
1. itunes
2. google “开发课程” 或 “open course”
3. 相关大学官网
在这推荐几个比较好的opencourse:
网易公开课 国内做的最好的了吧,中文化不错,也相对比较全
coursera一个斯坦福教授主持的
coursehero看起来不错
others:
我爱公开课。小型网站,mark下
常用官方文档整理
网站及网页:
基本知识中文学习站(中):http://www.w3school.com.cn
W3C官网(英):http://www.w3.org/
HTML 4.01规范(英):http://www.w3.org/TR/html4/
XHTML™ 1.1规范(英):http://www.w3.org/TR/xhtml11/
CSS官方文档(多国语言):http://www.w3.org/Style/CSS/
HTML5规范(英):http://www.w3.org/TR/html5/
jQuery(包含UI)官方文档(英):http://api.jquery.com/browser/
jQuery UI官方演示文档(英):http://jqueryui.com/demos/
jQuery中文文档(非官方):http://www.css88.com/jqapi/
YUI 2库文档(英):http://developer.yahoo.com/yui/yuidoc/
YUI 3库文档(英):http://developer.yahoo.com/yui/3/
PHP文官方档(多国语言):http://php.net/docs.php
Wordpress官方文档(英):http://codex.wordpress.org.cn/
Wordpress官方文档(中,多国语言): http://codex.wordpress.org/zh-cn:_WordPress_%E5%AE%98%E6%96%B9%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3
MOZILLA DEVELOPER NETWORK(MDN):https://developer.mozilla.org/en-US/
Google Ajax Libraries API (CDN,英):http://code.google.com/apis/libraries/devguide.html
Microsoft Ajax CDN (CDN,英):http://www.asp.net/ajaxlibrary/cdn.ashx
网站及网页–压缩工具:
YUI Compressor官网(英)[java]{js\css}:http://developer.yahoo.com/yui/compressor/
Google Closure Compiler(英)[java]{js}: http://code.google.com/closure/compiler/
Microsoft Ajax Minifier(英)[bin]{js\css}:http://www.asp.net/ajaxlibrary/
C/C++:
官方(英):http://www.cplusplus.com
C 语言库(英):http://www.cplusplus.com/reference/clibrary/
C++ Reference(包含C语言库,C++基本库【杂项、STL、输入输出库】)(英):http://www.cplusplus.com/reference/
BOOST官网(英):http://www.boost.org/
BOOST文档(英):http://www.boost.org/doc/
OSG(英):http://www.openscenegraph.org/documentation/OpenSceneGraphReferenceDocs/index.html
杂项:
JSON(多国语言):http://www.json.org/
正则表达式(英):http://www.regexlab.com/en/regref.htm
正则表达式(中):http://www.regexlab.com/zh/regref.htm
微软MSND中文文档(中):http://msdn.microsoft.com/zh-cn/library/
微软MSDN文档(英):http://msdn.microsoft.com/library/
Subversion(英):http://subversion.tigris.org/
Chrome 插件开发(英):https://developer.chrome.com/extensions
Google Eclipse 插件(英):https://developers.google.com/eclipse/
数据库(DBMS):
SQLite(英):http://www.sqlite.org/docs.html
MySQL(多国语言):http://dev.mysql.com/doc/
SQL Server:见MSDN
HyperDex(NOSQL): http://hyperdex.org (MIT License)
LevelDB(NOSQL 持久化存储层, by Google): https://code.google.com/p/leveldb/ (New BSD License)
Redis(NOSQL): http://redis.io/ (高性能的 key-value 存储系统, Memcached增强版, three clause BSD license)
Project Voldemort(NOSQL): http://project-voldemort.com/ (Amazon's Dynamo 的一个开源克隆, Apache License)
标准化(各种ISO):
网页规范检测(W3C官方):http://validator.w3.org/
网页CSS规范检测(W3C官方):http://jigsaw.w3.org/css-validator/ [其实没什么用,因为要做浏览器兼容性很多东西要特化]
RSS检测:http://feedvalidator.org/
网页超链接检测(W3C官方):http://validator.w3.org/checklink
第508条清单和WCAG检测:http://www.contentquality.com/
小工具:
CSS3样式生成工具集(不支持IE6-8的filter): http://css3generator.com/
渐变CSS生成器(使用ARGB,支持透明度渐变): http://www.colorzilla.com/gradient-editor/
整体CSS生成工具(支持IE6-8的filter适配):http://css3.pascal-seven.de/
CSS3生成工具(功能略微弱一点): http://css3gen.com/
生成按钮用滴:http://www.webtutorialplus.com/css-button-maker/
还是生成按钮用滴:(貌似漂亮一点)http://www.sciweavers.org/i2style
一个生成菜单的工具:(它竟然是EXE) http://www.css3menu.com
以后慢慢补充,有的是直接粘贴别人的