并不照搬书本、通俗易懂例子、我自己的理解之第一章统计学习的方法概论（1）

果壳三明治

于 2018-04-29 20:14:23 发布

阅读量511

点赞数

文章标签：机器学习李航读书笔记人工智能统计学习方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pp345616465/article/details/80136483

版权

这是我——"果壳三明治"的第一篇博客。

2017的金秋十月，在图书馆看小蓝书，云里雾里。

2018的春光五月，在图书馆再看小蓝书，有了许多新的理解。

目前国内的关于机器学习最好的两本书：周志华老师的《机器学习》（西瓜书）和李航老师的《统计学习方法》（小蓝书）。

接下来，我就先按小蓝书的顺序，删繁就简的分享下我的理解（后面再分享西瓜书），希望对看到博客的有所帮助。

话不多数，进入正题！

1.1统计学习

概念：

统计学习，也称为统计机器学习，也就是我们常说的机器学习。

机器学习为什么叫统计学习？

答：机器学习以数据为研究对象。由于同类数据具有一定的统计规律性，可以用概率统计方法来研究。因此称为统计学习。如果想深入的学习概率统计，推荐买一本陈希孺前辈的《概率论与数理统计》。

举例解释什么是统计学习：

（1）很多同学考试之前，没有时间看课本，所以就刷题去发现规律，完全不知道原理也可以做出考试题。这就是统计学习。

（2）去市场买西瓜，什么样的瓜好？买的次数多了，就会发现规律，会根据色泽、根蒂、敲声等挑出好瓜。这也是统计学习。

统计学习的目的是什么？

答：统计学习通过对旧数据的分析，对未知新数据进行预测和分析。

还是上面的例子：

（1）旧数据就是刷的题；新数据是考试题。目的是分析出考试题怎么做。

（2）旧数据是以前买过的瓜；新数据是待买的西瓜。目的是预测出待买的西瓜好不好。

统计学习的方法都有什么？

答：监督学习、非监督学习、半监督学习、强化学习。这个后面我会具体讲解。

统计学习的研究层次：

1、开发新的学习方法。

2、探求方法的有效性与效率。

3、将统计学习方法应用到实际问题中去，解决实际问题。

有人会说：我就是应用，用python去import个包就行，我不需要学那么多原理。

有人会说：我要搞研究，应用什么的太low。

这两种想法都是极其错误的。要想应用好，了解原理是必须的，会让你节省很多无用功！要想搞研究，你连编代码跑程序都不会，怎么写论文？还怎么研究？

统计学习的重要性：

统计学习很重要！统计学习是深度学习、人工智能、数据挖掘、自然语言处理等的核心技术和基础。

直接发现一个原理很难，但从现象中发现规律，从规律中探寻原理会轻松许多。

人类学习知识的本质，也是通过实践总结规律，得出经验，有时为了得到更好的进行新的尝试。

机器学习也一样，通过实践得到的数据统计规律，得出结果，有时为了跳出局部最优，寻找全局最优，也会进行尝试。

AI的可怕之处在于，DeepMind团队成员并不需要有很高的围棋技术，就可以做出打败人类最强棋手李世石和柯洁的AlphaGo。

笔者认为，未来人工智能会极大的促进人类发展！不过，我也赞同马文·明斯基所说：人类不是进化的终点。

1.2监督学习

小蓝书主要讨论监督学习。

输入空间、输出空间、特征空间：

顾名思义，就是输入和输出。在统计学习中，输入空间通常会用特征空间表示。输出空间，通常称为标签。

举例解释下三个空间：

区分人种，并不需要把身体的所有数据（输入空间）都输入，只需把肤色、眼睛颜色、头发颜色、体毛多少等特征（特征空间）输入就可以。输出空间，就是黄种人、白种人、黑种人。。

我们习惯上把输入变量写作X，输出变量写作Y 。实例用小写字母表示：xi=(xi(1),xi(2),….xi(n))T

上式中，i代表多个输入变量的第i个。括号中的数字代表是第几个特征。每个 xi 都有对应的 yi 。

整个训练集通常表示为：T={(x1,y1),(x2,y2),…,(xN,yN)}。

举例解释下上式：

选西瓜，xi 是第i个西瓜，xi(1)表示第i个西瓜的第一个特征（色泽），yi 是甜或者不甜。

监督学习的训练集的 y 是已知的，测试集和训练集表示一样，但 y 是未知的。

如果变量是连续的，称为回归问题；如果变量是有限个离散的，称为分类问题。

联合概率密度：

监督学习假设X，Y 遵循联合概率分布P（X，Y）。也就是说，假定数据存在一定的分布规律。所以，如果我们求出来联合概率分布，那就可以将X 带入P（X，Y） 得到Y 的值了（有时并不需要求联合概率分布也可以得到Y ）。

假设空间：

监督学习的目的是学习一个由X到Y的映射，X 是空间，Y 是空间，所以映射也是空间，称为假设空间。（空间暂且可以理解为用来表示多维数据。）

这一映射由模型来表示，监督学习的模型可以是概率模型或非概率模型。由条件概率分布P（Y |X）或决策函数Y = f（X）表示。

问题的形式化：

监督学习就是利用训练数据集学习一个模型（也就是一个X 到Y 的映射），再用模型，对测试样本的Y 进行预测。

训练的目的是为了让模型对已知的测试样本的预测更准确，同时对其他未知的测试数据集的预测又要有尽可能好的结果。

好了，第一次先写这么多。写得太长的话，写起来痛苦，看的人看起来也漫长。下一篇写第一章（2）。

感谢阅读！参考自《统计学习方法》

果壳三明治

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

果壳三明治 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。