这是我——"果壳三明治"的第一篇博客。
2017的金秋十月,在图书馆看小蓝书,云里雾里。
2018的春光五月,在图书馆再看小蓝书,有了许多新的理解。
目前国内的关于机器学习最好的两本书:周志华老师的《机器学习》(西瓜书)和李航老师的《统计学习方法》(小蓝书)。
接下来,我就先按小蓝书的顺序,删繁就简的分享下我的理解(后面再分享西瓜书),希望对看到博客的有所帮助。
话不多数,进入正题!
1.1统计学习
概念:
统计学习,也称为统计机器学习,也就是我们常说的机器学习。
机器学习为什么叫统计学习?
答:机器学习以数据为研究对象。由于同类数据具有一定的统计规律性,可以用概率统计方法来研究。因此称为统计学习。如果想深入的学习概率统计,推荐买一本陈希孺前辈的《概率论与数理统计》。
举例解释什么是统计学习:
(1)很多同学考试之前,没有时间看课本,所以就刷题去发现规律,完全不知道原理也可以做出考试题。这就是统计学习。
(2)去市场买西瓜,什么样的瓜好?买的次数多了,就会发现规律,会根据色泽、根蒂、敲声等挑出好瓜。这也是统计学习。
统计学习的目的是什么?
答:统计学习通过对旧数据的分析,对未知新数据进行预测和分析。
还是上面的例子:
(1)旧数据就是刷的题;新数据是考试题。目的是分析出考试题怎么做。
(2)旧数据是以前买过的瓜;新数据是待买的西瓜。目的是预测出待买的西瓜好不好。
统计学习的方法都有什么?
答:监督学习、非监督学习、半监督学习、强化学习。这个后面我会具体讲解。
统计学习的研究层次:
1、开发新的学习方法。
2、探求方法的有效性与效率。
3、将统计学习方法应用到实际问题中去,解决实际问题。
有人会说:我就是应用,用python去import个包就行,我不需要学那么多原理。
有人会说:我要搞研究,应用什么的太low。
这两种想法都是极其错误的。要想应用好,了解原理是必须的,会让你节省很多无用功!要想搞研究,你连编代码跑程序都不会,怎么写论文?还怎么研究?
统计学习的重要性:
统计学习很重要!统计学习是深度学习、人工智能、数据挖掘、自然语言处理等的核心技术和基础。
直接发现一个原理很难,但从现象中发现规律,从规律中探寻原理会轻松许多。
人类学习知识的本质,也是通过实践总结规律,得出经验,有时为了得到更好的进行新的尝试。
机器学习也一样,通过实践得到的数据统计规律,得出结果,有时为了跳出局部最优,寻找全局最优,也会进行尝试。
AI的可怕之处在于,DeepMind团队成员并不需要有很高的围棋技术,就可以做出打败人类最强棋手李世石和柯洁的AlphaGo。
笔者认为,未来人工智能会极大的促进人类发展!不过,我也赞同马文·明斯基所说:人类不是进化的终点。
1.2监督学习
小蓝书主要讨论监督学习。
输入空间、输出空间、特征空间:
顾名思义,就是输入和输出。在统计学习中,输入空间通常会用特征空间表示。输出空间,通常称为标签。
举例解释下三个空间:
区分人种,并不需要把身体的所有数据(输入空间)都输入,只需把肤色、眼睛颜色、头发颜色、体毛多少等特征(特征空间)输入就可以。输出空间,就是黄种人、白种人、黑种人。。
我们习惯上把输入变量写作X,输出变量写作Y 。实例用小写字母表示:xi=(xi(1),xi(2),….xi(n))T
上式中,i代表多个输入变量的第i个。括号中的数字代表是第几个特征。每个 xi 都有对应的 yi 。
整个训练集通常表示为:T={(x1,y1),(x2,y2),…,(xN,yN)}。
举例解释下上式:
选西瓜,xi 是第i个西瓜,xi(1)表示第i个西瓜的第一个特征(色泽),yi 是甜或者不甜。
监督学习的训练集的 y 是已知的,测试集和训练集表示一样,但 y 是未知的。
如果变量是连续的,称为回归问题;如果变量是有限个离散的,称为分类问题。
联合概率密度:
监督学习假设X,Y 遵循联合概率分布P(X,Y)。也就是说,假定数据存在一定的分布规律。所以,如果我们求出来联合概率分布,那就可以将X 带入P(X,Y) 得到Y 的值 了(有时并不需要求联合概率分布也可以得到Y )。
假设空间:
监督学习的目的是学习一个由X到Y的映射,X 是空间,Y 是空间,所以映射也是空间,称为假设空间。(空间暂且可以理解为用来表示多维数据。)
这一映射由模型来表示,监督学习的模型可以是概率模型或非概率模型。由条件概率分布P(Y |X)或决策函数Y = f(X)表示。
问题的形式化:
监督学习就是利用训练数据集学习一个模型(也就是一个X 到Y 的映射),再用模型,对测试样本的Y 进行预测。
训练的目的是为了让模型对已知的测试样本的预测更准确,同时对其他未知的测试数据集的预测又要有尽可能好的结果。
好了,第一次先写这么多。写得太长的话,写起来痛苦,看的人看起来也漫长。下一篇写第一章(2)。
感谢阅读!参考自《统计学习方法》