目录
监督学习
利用已知类别或结果的样本对模型进行学习的过程
学习过程中需要注意:权衡偏差和方差
非监督学习
半监督学习
强化学习
假设空间
输入空间到输出空间的映射的集合
模型属于假设空间
学习的目的在于找到最好的映射,即模型
统计学习三要素:模型、策略、算法
模型
指根据数据学习出来的模型,如贝叶斯的条件概率、决策树、线性回归的的系数等
策略
指学习的准则,即选择使用的经验风险函数或结构风险函数(一般通过选择的损失函数求和计算出来)
1.经验风险函数:
指模型f关于训练数据集的平均损失,其平均损失由选择的损失函数得到
期望损失函数公式:
因为x,y联合分布无法直接得出,所以使用经验风险近似期望损失
L代表所选择的损失函数
常用的损失函数(代价函数):
2.结构风险函数:
防止出现过拟合情况,引入正则化项的经验风险函数
结构风险函数公式:
为正则化项,一般为系数的L1范数(会使某系数为0,使得特征更加稀疏)
策略将模型的求解转化为求解最优解的问题,也就是
求解最优化问题
算法:
指用于求解最优化问题的算法
一般有:坐标下降、梯度下降、拟牛顿法等
训练误差:
模型关于训练数据集的平均损失,也就是期望损失函数
测试误差:
模型关于测试集的平均损失(真实结果-根据模型计算出来的结果,的平均值)
测试误差小的模型的性能更好,说明模型泛化能力更强
过拟合:
将训练集特有的特征,学习成数据集整体的特征
学习时选择模型所包含的参数过多(训练模型使用的特征过多)
对已知数据预测的很好,未知数据预测的很差