机器学习介绍
机器学习的概述
-
机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知的数据进行预测的算法。
-
机器学习是从统计学演变而来,所以也叫统计学习。
-
机器学习的三要素:模型 策略 算法。
-
模型:在进行数据分析时,对于数据总结出的规律就是模型;
-
策略:对于模型的筛选就称为策略,是一个模型的选择和比较标准;损失函数;
-
算法:对于复杂问题的解决就需要算法(不能通过简单的数学计算而获取答案);
机器学习分类
机器学习主要可分为两大类:
- 监督学习
- 无监督学习
监督学习:每个样本都有相应的“正确答案”,在根据样本对未知的数据进行预测;可以分为两大问题;
- 回归问题(一般用于处理连续的数据,对样本数据先进行拟合)
- 分类问题(0 1分类,对于多特征,可以采用支持向量机)
无监督学习:每个样本都明确的标签,然后让机器学习算法自动的为我们找出他们的内在结构;常见的有:
- 聚类算法
模型选择
该图中,红色曲线表示模型训练曲线,蓝色曲线代表模型预测曲线;所以会出现欠拟合和过拟合现象;
泛化能力:指学习到的模型对未知数据的预测能力。
- 欠拟合:是指模型的拟合程度不高,模型过于简单,数据距离拟合曲线较远,指模型没有很好的捕捉数据,对数据的拟合程度较低,泛化能力较弱;
- 过拟合 :是指学习时选择的模型所包含的参数较多,导致对样本数据预测的很好,而对未知数据的预测较差,模型复杂度较高;
策略选择
- 损失函数:度量模型的一次好坏;
模型选择
- 正则化:正则化是在损失函数的基础上增加一个正则项,正则项是和损失函数成反相关,一般是模型函数复杂度的单调递增函数,模型越复杂,正则项一般越大;
- 模型验证
- 简单交叉验证:是随机项数据分为两部分,一部分数据作为训练集,另一部分作为测试集,在测试集上评价各个模型的测试误差,选出测试误差最小的模型;
- S折交叉验证:是随机的将已给的数据切分成S个互不相交大小相同的子集,然后利用S-1个子集的数据训练模型,利用剩下的一个作为测试集,然后交叉进行S次,最后选出S次评测中误差最小的模型。