序言
这部分提出了针对机器学习的6个问题和对应的思考:
1. 对符号学习和统计学习地位的解读,相关学者认为未来统计学习的方法应当强调与知识或者认知的结合,从而实现螺旋上升;
2.机器学习的“样本同分布”假设是否可以被突破?或许迁移学习可以解决这个问题;
3.深度学习并非是机器学习的新方向,其兴起是由于计算力的提高;
4.机器学习需要更高深的数学理论去推动;
5.离散方法和连续方法之间的联系需要进一步的数学理论支撑;
6.大数据对机器学习方法背后的数理统计方法有没有发生本质的变化,其对机器学习的影响有待进一步研究。
如何使用本书
这部分大意是指,读者应该通过这本书学习机器学习的思想,而不是仅仅把目光放在算法的实现上,应学习其中的道,才能以不变应万变,因此,作者建议读者在不同时期,用不同的心态多多阅读几遍,掌握算法背后的思想脉络,方能融会贯通。
绪论
1.机器学习的定义。
在计算机上从数据中产生学习算法,学习算法基于经验数据产生模型,模型帮助我们解决问题。
2.机器学习的基本术语。
数据集(data set):待研究对象的样本集合,包含其属性/特征值。
样本(sample):单个研究对象,包含其自身的属性/特征值。
属性(attribute)/特征(feature):反映研究对象在某方面的表现或性质的事项,对应的取值为属性/特征值(value),属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”。
特征向量(feature vector):例如我们把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间