0、写在前面的话
目前一段时间打算利用业务时间学习周志华版《机器学习》,周老师在机器学习界的实力很强,所以这本书不仅仅是一本介绍理论和算法的书籍,更是周老师关于机器学习相关问题的心得体会。如果你没有相关基础,学习一遍也会对机器学习有一个整体框架的了解;若你有了一定基础甚至怀着一些迷茫,读这本书更会有恍然大悟、原来如此之感触。在后续章节中,周老师基于篇幅的考虑有些算法不够详尽,我可能会参考李航老师的《统计学习方法》等书再做进一步补充。
总之,我愿与大家一起深入学习这本书,同时有三点说明:
1、内容会尽可能详尽而不繁琐,目录尽可能清晰明确
2、对于涉及到的概念、算法、课后习题,有留言的我会积极交流
3、白天还有其他事情要做,但我会尽力定期更新,也欢迎大家监督
1、机器学习
机器学习这门学科,是致力于研究如何通过计算的手段,利用经验改变自身的性能。在计算机系统中,经验以数据的形式存在,机器学习所研究的内容是关于在计算机上从数据中产生模型的算法,即是学习算法。有了学习算法,我们把经验数据提供给它,它能够基于这些数据产生模型,在面临一个新的情况时,模型会给我们提供相应的判断。
2、特征、记录与数据集
- 记录是关于一个事件或者对象的描述,也称之为一个样本;
- 数据集是由一条条记录组合,是记录的集合;
- 反映事件或者对象在某一个方面的表现或性质的事项,称之为属性或者特征;
- 属性上的取值称为属性值或者特征值;
- 属性组成的空间,称之为属性空间或特征空间;
编号 | 色泽 | 根蒂 | 敲声 | 西瓜类型 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
在上面的表中,每一条均为描述西瓜的一条样本;这四条记录的集合称之为数据集;其中描述西瓜表现的属性分别有色泽、根蒂和敲声;在每一条样本中均有对应的属性值,比如第一条中的青绿、蜷缩和浊响;将这三个特征作为三个坐标轴,则形成一个用于描述西瓜的三维空间,每个西瓜均可在这个空间中找到自己的坐标位置。
一般地,令
D={x1,x2,...,xn}
表示包含
m
个样本的数据集,每个样本由
3、学习/训练
从数据中学到模型的过程称之为学习或者训练;这个过程是通过执行某个学习算法来完成,训练过程中使用到的数据称之为训练数据(也即是刚刚介绍的数据集),每个样本称之为训练样本;学习得到的模型对应了关于数据的某种潜在规律,称之为假设;而这种潜在规律自身,称之为真相。
通俗的来讲,即是给了我们一个数据集,其中已经蕴含着某种数据规律(即是真相),我们通过一种学习算法,来期望通过训练,找到这种真相,训练完之后我们得到的是模型(即是假设)。而且我们永远不知道我们得到的这种模型是不是真相,因为真相不可知,我们总是在尽力的逼近真相而已。