机器学习、深度学习的理论与实战入门建议整理（一）

最新推荐文章于 2024-03-31 22:34:41 发布

置顶通信程序猿

最新推荐文章于 2024-03-31 22:34:41 发布

阅读量1w

点赞数 5

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

22 篇文章 2 订阅

订阅专栏

引言

拿到这份文档时想必你的脑海中一直萦绕着这么一个问题，“机器学习/深度学习要怎么学呢？（怎么入门，又怎么进一步掌握？）”。关于这个问题其实并没有一个标准答案，有的人可能适合自底向上的学，也就是先从理论和数学开始，然后是算法实现，最后再通过一些项目去解决生活中的实际问题；有的人则可能适合自顶向下的学，也就是在弄清楚什么是机器学习及为什么学机器学习后，先确定一个系统性的用机器学习来解决实际问题的程序，然后找到一个合适的工具，接着再在各种数据集上做练习以不断加强自己的实践能力与巩固对算法的理解。而这份文档是希望能从纷繁众多的学习资料里为你整理出一个头绪，但即使是这样一个出发点，从最终的结果来看，也还是繁杂了一些，也许之后还会再整理出一个精简版，不过其实一些很不错的入门指南的链接在这份文档里也已列出，仔细找找就会有好东西喔。最后想借用Quora上一份对“I’m very interested in deep learning. How can I get hired?”问题的回答来作为这份学习建议的开场白：
　“Deep learning (Neural nets)/Machine learning is an ART. ART can never be mastered unless it is practiced. So instead of just learning about them , start exploring them by implementing one. there are outnumbered tutorials on net. choose either lib based implementation such as convnet or torch7 or caffe etc. or try implementing fully from scratch( this way u understand internal structures and linkages of algo better) .
　Start off with small dataset instead of aiming on high .
　　Start off by minimal architecture.
　　U will learn a lot this way u gain confidence. then you can project yourself to the companies by posting link of ur github repository of machine /deep learning implementations. this will help u in the long run… “
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　—Good Luck

阶段一.机器学习入门

这是最基础也是最重要的一个阶段，借用台大的林轩田教授总结的几句话，在这个阶段我们要注重思考与理解这么几个问题：
1.什么是机器学习？
What is machine learning
机器学习是从数据(data)中学习获取某一方面表现(performance measure)的增进。

2.什么时候机器可以学习（机器学习能为我们做什么）？
When can machines learn
那么何时考虑使用机器学习，通常需要满足以下三个前提：
1）存在有待学习的隐含模式(underlying pattern)。
2）该模式无法/难以通过程序实现(no programmable definition)。(when human cannot program the system manually, when human cannot define the solution easily, when needing rapid decisions that humans cannot do, when needing to be user-oriented in a massive scale)比如辨认某个事物，靠人的脑力用程序把辨识规则详细写出来，可能很难做到。
$y = f (x)$ ， $x$ 是输入样本， $y$ 是输出的预测值，这个 $f ()$ 未可知，正是需要机器来学的。
3）该模式存在足够多的数据(data)。

3.为什么机器可以学习？
Why can machines learn

假设训练数据样本和未知的测试样本来自同一的分布（这点尤为重要现有的大部分机器学习算法都从这点出发，好像迁移学习不是），并且假设空间的假设 $h$ 是有限的情况下，在训练样本N足够大，假设空间中的所有的假设都会遵循PAC准则(probably approximately correct)，确保 $E_{in}(h) \approx E_{out}(h)$ ，每一个假设函数都可以满足近似相等的性质，因此可以通过算法在这些假设空间中找一个 $E_{in}(g) \approx 0$ 的假设，同样PAC也保证了 $E_{out}(g) \approx 0$ 。存在一个未知的目标函数f，机器学习的任务是找出一个假设函数g，使得假设g和目标函数f很接近。