机器学习分类
名称 | 老师 | 学习方式 | 评价标准 | 代表任务 |
---|---|---|---|---|
有监督学习 | 有老师 | 跟着老师学 | 老师判断 | 分类、回归 |
无监督学习 | 无老师 | 自学 | 特定标准评价 | 聚类、降维 |
强化学习 | 无老师 | 自学 | 自己评价 |
数据集
- 训练集:用来拟合模型
- 验证集:用来调参;可以初步评估模型能力
- 测试集:评估最终模型的泛化能力
误差分析
误差
- 误差就是模型预测与真实值之间的差异
训练误差
- 在训练集上的误差
泛化误差
- 在总体样本上的误差
测试误差
- 在测试集上的误差
偏差与方差
- 偏差:真实值与预测值之间的关系,反应的是模型本身的拟合能力;
- 方差:反应的是模型的稳定性,也就是波动情况;
欠拟合与过拟合
- 欠拟合:高偏差低方差
- 解决方法:① 寻找更好地特征②寻找更多的特征③使用更加复杂的模型
- 过拟合:低偏差高方差
- 解决方法:① 增加样本数目②减少特征维数③ 加入正则项,使得图像更加光滑
交叉验证
- 以10折交叉验证为例:把样本随机分为10份,第一次选第一份作为验证集,第二次选第二份作为验证集,以此类推
- 特殊地:留一交叉验证:可以看做样本数目为n的n折交叉验证,也就是对于n个样本,每次选择一个作为验证集,适合训练集比较少的情况
有监督的学习
-
就是数据集有标记(有答案)
-
预测的值为离散型就是分类问题;预测的值为连续型就是回归问题
-
线性回归目标:预测值与样本的标签差距最小;
-
逻辑回归:利用sigmoid函数,将线性回归产生的预测值压缩到0~1范围之间
-
支持向量机:常用来解决二分类问题;可以理解为用一条线把一个平面分为两部分
-
对于支持向量机的不可分问题,可以采用超曲面和核函数进行处理
-
决策树:使用信息增益选择特征(谁是根节点,依次往下怎么排列),然后使用ID3或者其他算法递归建立决策树;
-
随机森林:就是多个无关联的决策树构造完成,对于每个输入,每个决策树独立进行判断,然后随机森林按照多数原则输出结果
-
随机森林是集成学习的一种,也就是建立多个弱监督模型组成一个更全面的强监督模型;核心思想就是哪怕有一个弱监督模型学习错误,也可以根据多数原则输出最后正确的结果
无监督学习
-
①聚类:就是根据相似程度,相似程度高的是一类,低的是一类等;
-
②降维:就是把维数高、计算复杂的数据丢失较少的数据形成维度比较低、计算比较简单的数据;
常见的聚类算法有:K-Means聚类、均值漂移聚类、基于密度的聚类; -
K-Means聚类:
-
均值漂移聚类:
-
基于密度的聚类: