《机器学习哪些事》推荐:http://homes.cs.washington.edu/~pedrod/
顶级国际会议视频报告:http://videolectures.net/jul09_hinton_deeplearn/
百度文库机器学习 视频教学全集http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705
deep learning 相关学习资料:http://deeplearning.net/software_links/
- 下面转载自:http://www.cppblog.com/cdy20/archive/2012/10/10/193134.html ,致谢。
-
- KDD杯的中心,所有的数据,任务和结果。
- UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库。
- UCI机器学习数据库。
- AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。
- 生物测定数据,在 虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的,有21个生物测定数据集(有效/无效的化合物)可供下载。
- 加拿大开放数据,许多政府和地理空间数据集的试点项目。
- 因果关系工作平台的数据存储库。
- 数据源手册,指南公开数据,由皮特·沃登,奥莱利(2011年1月)。
- Data.gov.uk,英国(伦敦数据存储的公开数据 )。
- Data.gov /教育,中央指导教育数据资源,包括高价值的数据集,数据可视化工具,课堂上的资源,创建开放数据和更多的应用程序。
- DataMarket,可视化世界的经济,社会,自然,与行业,与100万次系列由联合国,世界银行,欧盟统计局和其他重要的数据提供者。
- Datamob,公共数据善加利用。
- DataSF.org,从旧金山市与县,CA的数据资料交换所。
- DataFerrett,数据挖掘工具,访问和操纵TheDataWeb,许多美国上线的电子政务数据集的集合。
- 钻研,评估学习有效的实验数据
- EconData,成千上万的经济时间序列,产生一些美国政府机构。
- 安然邮件数据集,约150个用户的数据,主要是安然公司的高级管理人员。
- Europeana的数据,包含2000万的文本,图像,视频和声音Europeana的-欧洲文化遗产内容的信任和全面的资源收集的开放的元数据。
- FEDSTATS,美国的统计数据,更全面的信息来源
- FIMI频繁项集挖掘,实现和数据集库。
- 财务数据搜索在OSU,大的目录的财务数据集。
- 全球环境展望(GEO基因表达OMNIBUS) ,基因表达/分子的丰富存储库支持MIAME兼容的数据提交,并策划,网络资源的基因表达数据的浏览,查询和检索。
- GeoDa中心,地理空间数据。
- 的谷歌ngrams数据集,从数以百万计的谷歌扫描图书的文字。
- 粮食市场调研,财务数据,包括股票,期货等。
- 希拉里·梅森研究质量的大数据集的集合-许多文本和图像数据集。
- ICWSM-2009年的数据集包含4400万8月1日和2008年10月1日的博客文章。
- Infochimps,公开目录和市场数据。您可以共享,出售,牧师和下载任何东西,一切有关的数据。
- 投资者的链接,包括财务数据
- 凯文湾仔数据集列表,文本,SNA,和其他领域。
- KONECT,科布伦茨网络的收集,与所有类型的大型网络数据集,以执行网络挖掘领域的研究。
- 关联开放数据项目,数据免费提供给大家。
- 万首歌曲数据集
- 麻省理工学院癌症基因组基因表达数据和出版物,从麻省理工学院怀特黑德基因组研究中心。
- ML数据,数据存储库的,欧盟Pascal2网络。
- 纳斯达克Data Store数据存储系统,提供市场数据的访问。
- 国民政府统计网站,数据,报告,统计年鉴,新闻发布,以及来自约70个网站,其中包括来自非洲,欧洲,亚洲和拉丁美洲的国家。
- 国家空间科学数据中心(NSSDC),美国航空航天局的数据集从行星探测,空间和太阳物理,生命科学,天体物理学,和更多。
- OpenData Socrata,访问超过10,000的数据集,包括商业,教育,政府和乐趣。
- 彼得Skomoroch数据集书签
- PubGene(TM)基因数据库和工具,基因组学相关的出版物数据库
- 罗伯特·席勒住房,股市,并从他的著 作“非理性繁荣的数据。
- SMD:斯坦福微阵列数据库,从微阵列实验的原料和标准化的数据存储。
- SourceForge.net研究资料,包括历史和状态统计,约10万的项目和超过100万注册用户的活动,在项目管理网站。
- StatLib,债务工具中央结算系统的数据集存档。
- STATOO数据集的第1部分和 STATOO数据集的第2部分
- 时间序列资料库
- 可视化分析测试资源库。
- UCR的时间序列数据存档,提供数据集,文件,链接和代码。
- 美国人口调查局。
- Wikiposit,(虚拟)合并(主要是金融)从许多不同的网站的数据,使用户能够合并来自不同来源的数据
- 雅虎沙盒的数据集,语言,图形,资信评级,广告和市场营销,竞争
- Yelp的学术资料集,所有的数据和评论的250企业,30所大学的学生和学者探索和研究。
一下转载自:http://blog.csdn.net/elpmis/article/details/4546983
最近在网上找一些机器学习的资料,发现在这个领域有很多的免费资源,和大家分享一下。
- 几个推荐的网站
http://mloss.org/
mloss是machine learning open source software的缩写,上面有大量的开源软件,而且不断更新。
http://jmlr.csail.mit.edu/
Journal of Machine Learning Research (JMLR)应该说是机器学习领域最权威的期刊了,而且可以免费下载各年的论文,这实在太好了!
http://www.kernel-machines.org/
专注于kernel methods的机器学习,上面同样有很多开源的软件包。
- 机器学习领域的几个知名软件
R
http://cran.r-project.org/web/views/MachineLearning.html
R是一个很有名的开源项目,主要用于科学计算,http://mloss.org/上面很大一部分都R-project的子项目。
Shogun
http://www.shogun-toolbox.org/
Shogun是用C++写的机器学习软件包,支持向量机方面的算法很多。它同时为C/C++、matlab、Octave、R和python提供接口,扩展性也非常好。
Weka
http://www.cs.waikato.ac.nz/ml/weka/
Weka是用Java写的开源软件,数据挖掘领域使用很广泛。
KNIME
http://www.knime.org/
同样是Java写的开源软件,提供一个良好的数据分析平台和开发平台。