机器学习之模型评估

最新推荐文章于 2024-04-16 16:17:09 发布

RealDuxy

最新推荐文章于 2024-04-16 16:17:09 发布

阅读量410

点赞数

分类专栏：算法机器学习数据分析文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42267196/article/details/111461531

版权

算法同时被 3 个专栏收录

19 篇文章 1 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

准确率 Accuracy:

$\frac {tp+fn}{tp+tn+fp+fn}$

缺陷：样本比例不均，占比大的样本影响过大

精确率 Precision ，召回率 recall

$\frac {tp}{tp+fp}$

$\frac {tp}{tp+fn}$

为提高precision，需要减少p的预测，但会可能会减少recall。

综合评价一个排序模型的性能？

Precision-Recall 曲线

横轴recall, 纵轴precision

图上的每一个点代表着一个阈值，大于这个阈值则会被模型模型判定为正样本你。整条曲线的阈值从高到低。

F1 score

F1分数是recall 和 precision的调和平均值:

$\frac {2PR}{P+R}$

ROC曲线（重要）

评价二分类模型的重要指标

横坐标：假阳率

$\frac {FP}{N}$

纵坐标: 真阳率

$\frac {TP}{N}$

例子：

10个病人，3个患癌，诊断出2个，7个无癌，诊断出1个。

$FPR=\frac {1}{7}$ $TPR=\frac {2}{3}$

绘制ROC曲线

方法一：

动态调整二分类器的截断点（分类阈值）, 从而得到不同的(FPR, TPR)

从最高的得分开始

方法二：

横轴刻度设为1/N, 纵轴设为1/P，根据模型输出概率对样本进行排序（高到低）,遍历样本，正样本往纵轴移动一个个刻度，负样本往横轴移动一个刻度

AUC面积

AUC面积是ROC曲线下的面积大小，可以量化的反映模型性能。越大说明分类器越可能把正样本放在前面。

与PR曲线对比

正负样本的比例变化会剧烈影响PR，但基本不会影响ROC
在特定数据集上(数据分布固定), PR能更直观反映性能

评价回归模型指标 RMSE 平均根误差

$\sqrt {\frac {\sum_{i=1}^{n}(y_i - \hat y_i)^2}{n}}$

缺点: 对于偏离程度很大的outlier，对RMSE的影响比较大, 处理方法有:

数据预处理阶段过滤噪声
检查outlier是否是因为模型预测能力不够
寻找比RMSE鲁棒性更好的指标: $MAPE=\sum_{i=1}^{n}|\frac {y_i - \hat y_i}{y_i}| \times \frac {100}{n}$

平均绝对百分比误差，对每个误差做归一化

2. 余弦相似度，余弦距离，欧氏距离

评估样本距离是定义优化目标和训练方法的基础。特征通常被表示为向量，余弦相似度可以衡量向量之间的相似度，阈值为[-1,1]

余弦相似度定义:

$\frac {ab}{||a||_2||b||_2}$ ，本质上是a,b向量的夹角

余弦距离则为 $1 - c o s (a, b)$

相比于欧氏距离，他不关心向量的维度差异，且高维时依然保持（相同为1，正交为0，相反为-1）的性质

注意:

当向量模长经过归一化:

$欧氏距离=||A-B||_2 = \sqrt {2(1-cos(A,B))}$

此时，如果选择相似度最大作为近邻，则使用欧氏距离与使用余弦相似度的结果相同

异同:

欧氏距离体现数值上的绝对差异，余弦距离体现方向上的相对差异

例如

我们关注两个人的视屏偏好(0,1)(1,0)，使用余弦距离，方向上完全不同，使用欧氏距离，两者却一样，这个时候应该使用余弦距离

我们关注用户活跃度(0,1), (0,10)，余弦距离一样，但是欧式距离差距明显，此时使用欧氏距离

余弦距离是不是严格定义的距离？

正定性

$dist(A,B)=(||A||_2||B||_2 -AB) / ||A||_2||B||_2 >= 0$

对称性

$d i s t (A, B) = d i s t (B, A)$

三角不等式不满足

3. 模型评估的方法

HoldOut检验

按比例划分成训练集，测试集

交叉验证

将样本分为K分，每份以此作为测试集，其余作为训练集，评估K次，取平均

自助法

进行n次有放回的随机采样，得到大小为n的训练集，从未被抽样过的样本作为验证集，当样本无限多时，从未被抽样过的样本总数占比为0.368。

4. 超参数调优

网格搜索

查找所有可能的超参数范围来确认最优，补偿小，容易找到全局最优，计算消耗大，后期减小步长，也容易错过全局最优

随机搜索

跟网格搜索类似，在搜索范围内随机取参数值，但结果无法保证

贝叶斯优化

根据先验分布，假设一个搜集函数，然后每一次采样测试目标函数，都会更新目标函数的先验分布，最后根据得到的后验分布，给出全局最有可能的位置点。

但是贝叶斯优化一旦采样到了局部最优，就容易在局部最优附近采样无法逃出，所以未设置一个概率，使得采样点在最可能出现全局最值附近（局部最优）的地方采样的同时也有可能在还未取样的地方取样

参考：

《百面机器学习》第二章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

RealDuxy CSDN认证博客专家 CSDN认证企业博客

码龄6年

25: 原创

41万+: 周排名

32万+: 总排名

2万+: 访问

: 等级

419: 积分

13: 粉丝

24: 获赞

31: 评论

37: 收藏

私信

关注

热门文章

分类专栏

最新评论

指针生成网络(PGN)的简单总结
RealDuxy: 不还意思现在才看到。不是说“确定生成的词是否为oov”，而是说我们预测生成的词语的时候候选词为（“vocab中的词语”和"输入文本中的词语"的并集），这就导致候选词中有的词是oov，有些词不是oov。属于“输入文本中的词语”而不属于"vocab中的词语"的词就是oov。对于oov的词，计算P(w)只需要计算右边即可。相当于抽取式的生成。
指针生成网络(PGN)的简单总结
大勇哥的学习日记: 请问在使用指针时，怎么确定生成的词是OOV，以此选择生成词汇表单词或者复制原文本。
剑指 Offer 26. 树的子结构题解
water___Wang: 感谢分享
Leetcode刷题笔记之: 二叉树
菜鸟算法小职员: 大佬大佬
Leetcode刷题笔记之: 二叉树
冯诺依曼巧克力: 大佬大佬

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。