近200篇机器学习&深度学习资料分享（含各种文档，视频，源码等）(3)_近200篇机器学习及深度学习的资料分享-CSDN博客

《大数据分析：机器学习算法实现的演化》

介绍：本章中作者总结了三代机器学习算法实现的演化：第一代非分布式的，第二代工具如 Mahout 和 Rapidminer 实现基于 Hadoop 的扩展，第三代如 Spark 和 Storm 实现了实时和迭代数据处理。BIG DATA ANALYTICS BEYOND HADOOP

《图像处理，分析与机器视觉》

介绍：讲计算机视觉的四部奇书（应该叫经典吧）之一，另外三本是 Hartley 的《多图几何》、Gonzalez 的《数字图像处理》、Rafael C.Gonzalez / Richard E.Woods 的《数字图像处理》

《LinkedIn 最新的推荐系统文章 Browsemaps》

介绍：里面基本没涉及到具体算法，但作者介绍了 CF 在 LinkedIn 的很多应用，以及他们在做推荐过程中获得的一些经验。最后一条经验是应该监控 log 数据的质量，因为推荐的质量很依赖数据的质量！

《初学者如何查阅自然语言处理（NLP）领域学术资料》

介绍：初学者如何查阅自然语言处理（NLP）领域学术资料

《树莓派的人脸识别教程》

介绍：用树莓派和相机模块进行人脸识别

《利用深度学习与大数据构建对话系统》

介绍：如何利用深度学习与大数据构建对话系统

《经典论文 Leo Breiman：Statistical Modeling: The Two Cultures 》

介绍：Francis Bach 合作的有关稀疏建模的新综述(书)：Sparse Modeling for Image and Vision Processing，内容涉及 Sparsity， Dictionary Learning, PCA, Matrix Factorization 等理论，以及在图像和视觉上的应用，而且第一部分关于 Why does the l1-norm induce sparsity 的解释也很不错。

《Reproducing Kernel Hilbert Space》

介绍：RKHS 是机器学习中重要的概念，其在 large margin 分类器上的应用也是广为熟知的。如果没有较好的数学基础，直接理解 RKHS 可能会不易。本文从基本运算空间讲到 Banach 和 Hilbert 空间，深入浅出，一共才 12 页。

《Hacker's guide to Neural Networks》

介绍：许多同学对于机器学习及深度学习的困惑在于，数学方面已经大致理解了，但是动起手来却不知道如何下手写代码。斯坦福深度学习博士 Andrej Karpathy 写了一篇实战版本的深度学习及机器学习教程，手把手教你用 Javascript 写神经网络和 SVM.

《【语料库】语料库资源汇总》

介绍：【语料库】语料库资源汇总

《机器学习算法之旅》

介绍：本文会过一遍最流行的机器学习算法，大致了解哪些方法可用，很有帮助。

《Reproducible Research in Computational Science》

介绍：这个里面有很多关于机器学习、信号处理、计算机视觉、深入学习、神经网络等领域的大量源代码（或可执行代码）及相关论文。科研写论文的好资源

《NYU 2014 年的深度学习课程资料》

介绍：NYU 2014 年的深度学习课程资料，有视频

《计算机视觉数据集不完全汇总》

介绍：计算机视觉数据集不完全汇总

《Machine Learning Open Source Software》

介绍：机器学习开源软件

《LIBSVM》

介绍：A Library for Support Vector Machines

《Support Vector Machines》

介绍：数据挖掘十大经典算法之一

《100 Best GitHub: Deep Learning》

介绍：github 上面 100 个非常棒的项目

《加州大学欧文分校(UCI)机器学习数据集仓库》

介绍：当前加州大学欧文分校为机器学习社区维护着 306 个数据集。查询数据集

《Andrej Karpathy 个人主页》

介绍：Andrej Karpathy 是斯坦福大学 Li Fei-Fei 的博士生，使用机器学习在图像、视频语义分析领域取得了科研和工程上的突破，发的文章不多，但每个都很扎实，在每一个问题上都做到了 state-of-art.

《Andrej Karpathy 的深度强化学习演示》

介绍：Andrej Karpathy 的深度强化学习演示，论文在这里

《CIKM 数据挖掘竞赛夺冠算法-陈运文》

介绍：CIKM Cup (或者称为 CIKM Competition)是 ACM CIKM 举办的国际数据挖掘竞赛的名称。

《Geoffrey E. Hinton》

介绍：杰弗里·埃弗里斯特·辛顿 FRS 是一位英国出生的计算机学家和心理学家，以其在神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一，也是深度学习的积极推动者.

《自然语言处理的深度学习理论与实际》

介绍：微软研究院深度学习技术中心在 CIKM2014 上关于《自然语言处理的深度学习理论与实际》教学讲座的幻灯片

《用大数据和机器学习做股票价格预测》

介绍：本文基于<支持向量机的高频限价订单的动态建模>采用了 Apache Spark 和 Spark MLLib 从纽约股票交易所的订单日志数据构建价格运动预测模型。(股票有风险，投资谨慎) GitHub 源代码托管地址.

《关于机器学习的若干理论问题》

介绍：徐宗本院士将于热爱机器学习的小伙伴一起探讨有关于机器学习的几个理论性问题，并给出一些有意义的结论。最后通过一些实例来说明这些理论问题的物理意义和实际应用价值。

《深度学习在自然语言处理的应用》

介绍：作者还著有《这就是搜索引擎：核心技术详解》一书，主要是介绍应用层的东西

《Undergraduate machine learning at UBC》

介绍：机器学习课程

《人脸识别必读的N篇文章》

介绍：人脸识别必读文章推荐

《推荐系统经典论文文献及业界应用》

介绍：推荐系统经典论文文献

《人脸识别必读的N篇文章》

介绍：人脸识别必读文章推荐

《第十二届中国"机器学习及其应用"研讨会 PPT》

介绍：第十二届中国"机器学习及其应用"研讨会 PPT

《统计机器学习》

介绍：统计学习是关于计算机基于数据构建的概率统计模型并运用模型对数据进行预测和分析的一门科学，统计学习也成为统计机器学习。课程来自上海交通大学

《机器学习导论》

介绍：机器学习的目标是对计算机编程，以便使用样本数据或以往的经验来解决给定的问题.

《CIKM 2014 主题报告的幻灯片》

介绍：CIKM 2014 Jeff Dean、Qi Lu、Gerhard Weikum 的主题报告的幻灯片， Alex Smola、Limsoon Wong、Tong Zhang、Chih-Jen Lin 的 Industry Track 报告的幻灯片

《人工智能和机器学习领域有趣的开源项目》

介绍：部分中文列表

《机器学习经典算法详解及 Python 实现--基于 SMO 的 SVM 分类器》

介绍:此外作者还有一篇元算法、AdaBoost　python 实现文章

《Numerical Optimization: Understanding L-BFGS》

介绍:加州伯克利大学博士 Aria Haghighi 写了一篇超赞的数值优化博文，从牛顿法讲到拟牛顿法，再讲到 BFGS 以及L-BFGS, 图文并茂，还有伪代码。强烈推荐。

《简明深度学习方法概述（一）》

介绍:还有续集简明深度学习方法概述（二）

《R language for programmers》

介绍:Ｒ语言程序员私人定制版

《谷歌地图解密：大数据与机器学习的结合》

介绍:谷歌地图解密

《空间数据挖掘常用方法》

介绍:空间数据挖掘常用方法

《Use Google's Word2Vec for movie reviews》

介绍:Kaggle 新比赛 ”When bag of words meets bags of popcorn“ aka ”边学边用 word2vec 和 deep learning 做 NLP“ 里面全套教程教一步一步用 python 和 gensim 包的 word2vec 模型，并在实际比赛里面比调参数和清数据。如果已装过 gensim 不要忘升级

《PyNLPIR》

介绍:PyNLPIR 提供了 NLPIR/ICTCLAS 汉语分词的 Python 接口，此外 Zhon 提供了常用汉字常量，如 CJK 字符和偏旁，中文标点，拼音，和汉字正则表达式（如找到文本中的繁体字）

《深度卷积神经网络下围棋》

介绍:这文章说把最近模型识别上的突破应用到围棋软件上，打 16 万张职业棋谱训练模型识别功能。想法不错。训练后目前能做到不用计算，只看棋盘就给出下一步，大约 10 级棋力。但这篇文章太过乐观，说什么人类的最后一块堡垒马上就要跨掉了。话说得太早。不过，如果与别的软件结合应该还有潜力可挖。@万精油墨绿

《NIPS 审稿实验》

介绍:UT Austin 教授 Eric Price 关于今年 NIPS 审稿实验的详细分析，他表示，根据这次实验的结果，如果今年 NIPS 重新审稿的话，会有一半的论文被拒。

《2014 年最佳的大数据，数据科学文章》

介绍:KDNuggets 分别总结了 2014 年 14 个阅读最多以及分享最多的文章。我们从中可以看到多个主题——深度学习，数据科学家职业，教育和薪酬，学习数据科学的工具比如R和 Python 以及大众投票的最受欢迎的数据科学和数据挖掘语言

《机器学习经典算法详解及 Python 实现--线性回归（Linear Regression）算法》

介绍:Python 实现线性回归，作者还有其他很棒的文章推荐可以看看

《2014 中国大数据技术大会 33 位核心专家演讲 PDF》

介绍：2014 中国大数据技术大会 33 位核心专家演讲 PDF 下载

《使用 RNN 和 Paragraph Vector 做情感分析》

介绍：这是T. Mikolov & Y. Bengio 最新论文 Ensemble of Generative and Discriminative Techniques for Sentiment Analysis of Movie Reviews ，使用 RNN 和 PV 在情感分析效果不错，［项目代码］(https://github.com/mesnilgr/iclr15) 公布在 github (目前是空的)。这意味着 Paragraph Vector 终于揭开面纱了嘛。

《NLPIR/ICTCLAS2015 分词系统大会上的技术演讲》

介绍:NLPIR/ICTCLAS2015 分词系统发布与用户交流大会上的演讲，请更多朋友检阅新版分词吧。我们实验室同学的演讲包括：孙梦姝-基于评论观点挖掘的商品搜索技术研究李然-主题模型

《Machine Learning is Fun!》

介绍:Convex Neural Networks 解决维数灾难

《CNN 的反向求导及练习》

介绍:介绍 CNN 参数在使用 bp 算法时该怎么训练，毕竟 CNN 中有卷积层和下采样层，虽然和 MLP 的 bp 算法本质上相同，但形式上还是有些区别的，很显然在完成 CNN 反向传播前了解 bp 算法是必须的。此外作者也做了一个资源集:机器学习，深度学习，视觉，数学等

《正则表达式优化成 Trie 树》

介绍:如果要在一篇文章中匹配十万个关键词怎么办？Aho-Corasick 算法利用添加了返回边的 Trie 树，能够在线性时间内完成匹配。但如果匹配十万个正则表达式呢？这时候可以用到把多个正则优化成 Trie 树的方法，如日本人写的 Regexp::Trie

《Deep learning Reading List》

介绍:深度学习阅读清单

《Caffe》

介绍:Caffe 是一个开源的深度学习框架，作者目前在 google 工作，作者主页 Yangqing Jia (贾扬清)