机器学习西瓜书学习笔记

最新推荐文章于 2024-08-01 08:17:37 发布

男德教父

最新推荐文章于 2024-08-01 08:17:37 发布

阅读量356

点赞数 1

分类专栏：笔记文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/qq_39573520/article/details/122389514

版权

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第2章模型评估与选择

2.1 经验误差与过拟合

错误率 E=a/m
精度 A=1-E
过拟合：学习能力过强，学到了不具备普遍性的特质
欠拟合：学不到，cjb
过拟合无法彻底避免

误差实际输出和真实输出的差异
泛化误差 新样本上的误差
训练误差/经验误差 训练集上的误差

所以，经验误差过低不一定是好事，容易过拟合，泛化性能会下降
而我们没法获取泛化误差，那么到底该以什么作为标准呢？

2.2 评估方法

测试集 通常假设测试样本也从样本真实分布中独立同分布采样而得，但又要近似与训练集互斥
测试误差 测试集上的误差，作为泛化误差的近似
数据集D，训练集S和测试集T，D一共包含m个样例

2.2.1留出法

D=S∩T
S和T划分时要保持数据分布一样，否则会引入多余的偏差造成额外的影响。
分层采样
D包含500个正例，500个反例。分层采样的S/T正反例比例应该相同，如S350个正例，350个反例，T150个正例，150个反例。
如果比例差异大，会产生偏差。
多种划分方式
例如在刚刚的例子里我们对500正例进行排序，前350个和后350个放入训练集中，结果自然不一样。
因此，单次留出法的结果不够可靠，一般会使用多次随机划分，如100次得100个结果，最终获得100个结果的平均。
劣势——两难困境
因为D有限
若S过大，S会更接近D，但是T小，评估结果不够稳定精确
若T过大，评估结果会更精确，但S和D的差异也会更大
一般将2/3或4/5样本用于训练

2.2.2交叉验证法

p次k折验证
D=D1∪D2∪…Dk
Di保持数据分布一样
每次都用剩下k-1个D的集合作为训练集S，Di作为测试集T
同理，将D划为k份也有多种划分方式，用不同划分方式重复p次，称为p次k折验证。

留一法
D共有m个样本，k=m，p只能为1
留一法的S与D只差一个样本，相似度极高。
成本过高

2.2.3 自助法 bootstrapping

自助法的目的是排除容量偏差
对有m个样本的D采样，得到D‘
第一步，从D中随机挑一个样本，拷贝，放入D’
第二步，放回
第三步，重复m次
由公式 $\lim_{m\to ∞} (1-\frac{1}{m})^m=\frac{1}{e}=0.368$
D中约有36.8%样本未出现在D‘中
故D’为训练集，D-D‘为测试集
优势
自助法在数据集较小，难以有效划分数据集和训练集时很有用
集成学习
劣势
改变了数据分布，引入了估计偏差

2.2.4 调参与最终模型

学习算法有参数需要设定，参数不同，性能不同。
参数很多在实数范围内取值，所以，对每种参数配置都训练不可行。
常用步长法，就是分个段。
调参对最终模型性能有关键性影响。

2.3性能度量

性能度量是衡量泛化能力的评价标准
样例集D ={(x1,y1),(x2,y2),…,(xm,ym)}
yi是xi的真实标记，评估性能时，我们把f(x)和y作比较

回归任务常用 “均方误差”其实就是方差捏
$E(f;D)=\frac{1}{m}\sum_{i=1}^m(f(xi)-yi) ^2$
若存在概率密度函数p(.)
则：
$E(f;D)=\int_{x-D}(f(x)-y) ^2p(x)dx$

2.3.1错误度与精度

错误率为分类错误的样本数占样本总数的比例，精度是正确的巴拉巴拉
分类错误率
$E(f;D)=\frac{1}{m}\sum_{i=1}I(f(xi)≠yi)$
精度
$acc(f;D)=\frac{1}{m}\sum_{i=1}I(f(xi)=yi)$
那我们再套上数据分布D和概率密度函数p(.)
分类错误率
$E(f;D)=\int_{x-D}I(f(x)≠y)p(x)dx$
精度
$acc(f;D)=\int_{x-D}I(f(x)=y)p(x)dx$
$= 1 - E (f; D)$

2.3.2 查准率查全率与F1

错误率：一车西瓜中，有多少西瓜被判别错误
精度：一车西瓜中，有多少西瓜被判别正确
查准率：挑出的瓜里有多少个是好瓜
查全率：好瓜中有多少比例被挑了出来
P positive N negative
真正例TP
假正例FP
真反例TN
假反例FN
TP：被模型预测为正类的正样本（实际为正，预测也为正）。
FP：被模型预测为正类的负样本（实际为负，预测为正）。
TN：被模型预测为负类的负样本（实际为负，预测也为负）。
FN：被模型预测为负类的正样本（实际为正，预测为负）。
查准率P
$P=\frac{TP}{TP+FP}$
查全率R
$R=\frac{TP}{TP+FN}$
P和R是矛盾的度量
混淆矩阵
在这里插入图片描述