第一章机器学习基础
1.1何谓机器学习?
简单的说,机器学习就是把无序的数据转变成有用的信息。如何从海量数据中抽取到有价值的信息将是一个重要的课题。
1.2关键术语
特征(特征有数值型,也有布尔型,自定义的枚举型)
训练集:已知的分类数据,用于训练机器学习算法训练的数据。
目标变量:是机器学习算法的预测结果,在分类算法中通常是离散值类型的,而在回归算法中目标变量通常是连续型的。
为了检测算法的效果,通常使用两套独立的数据集:训练集和测试集。
1.3机器学习的主要任务
两大任务:分类与回归
这两类都属于监督学习:因为这类算法必须知道预测什么,即目标变量的分类信息。
无监督学习:此时数据没有类别信息,也不会给定目标值。它是将数据集合分成由类似对象组成的多个分类过程被称为聚类。将寻找描述数据统计值的过程称为密度估计,此外,无监督学习还可以减少数据特征的维数,可以用二维或三维更好的展示数据。
大致算法用途介绍:
监督学习:
1.k-近邻算法 线性回归
2.朴素贝叶斯算法 局部加权线性回归
3.支持向量机:Ridge回归
4.决策树:Lasso最小回归系数估计
无监督学习
1.k-均值:最大期望算法
2.DBSCAN:parzen窗设计
1.4如何选择合适的算法
上诉很多的算法可以用于解决同一问题:那么如何选择合适的算法呢?
1.如果是要预测目标变量的值,可以使用监督学习算法,若目标变量是离散型数值,则使用分类算法,若目标变量是连续型数值则使用回归算法
2.不是预测目标变量的值,则使用无监督机器学习,若是需要将数据集划分为离散的组,则使用聚类算法,若是还需估计数据与每个分组的相似程度,则需要使用密度估计算法。
3.其次需要考虑的就是数据问题:特征值是离散型变量还是连续型,是否存在缺失值,异常值等。
1.5开发机器学习应用的步骤
1.收集数据:
2.准备输入数据:清洗数据
3.分析输入数据
4.训练算法
5测试算法
6.使用算法