第一章 机器学习基础
1.2 关键术语
训练集是用于训练机器学习算法的数据样本集合。
目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。
类别:分类问题中的目标变量,分类问题只存在有限个数的类别。
注意 特征或者属性通常是训练样本集的列,它们是独立测量得到的结果,多个特征联系在一起共同组成一个训练样本。
1.3 机器学习的主要任务
- 分类:是将实例数据划分到合适的分类中。
- 回归:要用于预测数值型数据。
监督学习:分类和回归归属于监督学习,之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。
无监督学习:数据没有类别信息,也不会给定目标值。
将数据集合分成由类似的对象组成的多个类的过程被称为聚类;
将寻找描述数据统计值的过程称之为密度估计。
1.4 如何选择合适的算法
(一) 首先考虑使用机器学习算法的目的
如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。确定选择监督学习算法之后,需要进一步确定目标变量类型,如果目标变量是离散型,如是/否、1/2/3、A/B/C或者红/黄/黑等,则可以选择分类器算法;如果目标变量是连续型的数值,如0.0~100.00、-999~999或者+∞~-∞等,则需要选择回归算法。
如果不想预测目标变量的值,则可以选择无监督学习算法。进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。
(二) 其次需要考虑的是数据问题
主要应该了解数据的以下特性:特征值是离散型变量还是连续型变量,,特征值中是否存在缺失的值,何种原因造成缺失值,数据中是否存在异常值,某个特征发生的频率如何(是否罕见得如同海底捞针),等等。
1.5 开发机器学习应用程序的步骤
- 收集数据;
- 准备输入数据;
- 分析输入数据:是确保数据集中没有垃圾数据。
- 训练算法;
- 测试算法;
- 使用算法。