监督学习的分类
1.回归问题
2.标注问题
3.分类问题
需要知道的概念
统计学习的三要素是
方法=模型+策略+算法
模型
1.决策函数的集合:
2.参数空间:
3.条件概率的集合:
4.参数空间:
策略
损失函数:一次预测下的好坏。
风险函数:平均的好坏情况。
常见损失函数:1.0-1损失函数(0-1 loss function)很简单粗暴的使用等于,两者相等没有差别即为一,有差别还是为0
2.平方损失函数quadratic loss function,平法损失函数很相像的是最小二乘法。
3.绝对损失函数(absolute loss function)
4.对数损失函数
损失函数的期望
经验风险 :
经验风险最小化最优模型
当样本容量很小时,经验风险最小化学习的效果未必很好,会产生“过拟合over-fitting”
结构风险最小化 structure risk minimization,为防止过拟合提出的策略,等价于正则化(regularization),加入正则化项regularizer,或罚项 penalty term,这里就是很重要的正则化方法:
那么,求最优模型就是求解最优化问题
模型评估与模型的选择:
训练误差,训练数据集的平均损失
测试误差,测试数据集的平均损失
损失函数是0-1 损失时:
测试数据集的准确率:
算法
泛化能力:
一、回归模型评估
本部分引用于机器学习泛化能力的评价指标 - 做梦当财神 - 博客园 (cnblogs.com)
指标 | 描述 | sklearn 函数 |
---|---|---|
Mean Squred Error (MSE,RMSE)Mean Squred Error (MSE,RMSE) | 均方误差 | from sklearn.metrics import mean_squared_error |
Absolute Error (MAE,RAE)Absolute Error (MAE,RAE) | 绝对误差 | from sklearn.metrics import mean_absolute_error, median_absolute_error |
R−SquaredR−Squared | RR平方值 | from sklearn.metrics import r2_score |
Explained Variance ScoreExplained Variance Score | 可解释方差 | from sklearn.metrics import explained_variance_score |
1.均方误差
给定样例集 D={(x1,y1),(x2,y2),...,(xm,ym)}D={(x1,y1),(x2,y2),...,(xm,ym)},yiyi 是示例 xixi 的真实标记,f(x)f(x) 是预测结果。
回归模型最常用的性能度量是均方误差(Mean Squared ErrorMean Squared Error),数值越小越好。
均方误差:
2.绝对误差
绝对误差(Mean Absolute ErrorMean Absolute Error)用来描述预测值与真实值的差值。数值越小越好。
3.r2误差
给定样例集 D={(x1,y1),(x2,y2),...,(xm,ym)}D={(x1,y1),(x2,y2),...,(xm,ym)},yiyi 是示例 xixi 的真实标记,f(x)f(x) 是预测结果。
值最大为 11,越接近 11 越好。
4.可解释方差
可解释方差(Explained Variance ScoreExplained Variance Score),值最大为 11,越接近 11 越好。
—————————————————————————————————
待更新