西瓜书第二章笔记中

最新推荐文章于 2024-08-06 21:31:41 发布

扬志九洲

最新推荐文章于 2024-08-06 21:31:41 发布

阅读量143

点赞数 1

分类专栏：西瓜书学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/m0_53874746/article/details/115266120

版权

西瓜书学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

一、性能量度
二、常用性能量度

一、性能量度

性能量度：衡量模型泛化能力的评价标准。性能量度反映了任务需求，在对比不同模型的能力时，会使用不同的性能量度，使用不同的性能量度往往会导致不同的评判结果。

方法：把学习器预测结果与真实标记比较

二、常用性能量度

1、回归任务最常用的性能量度：均分误差

D={(x1,y1),(x2,y2),…,(xm,ym}为数据集，p(.)为概率密度
表达式为E(f;D)=∫(x~D)(f(x)-y)^2 p(x)d(x)

2、分类任务中常用的性能量度

1.错误率与精度

错误率：分类错误的样本数占样本总数的比例
精度：分类正确的样本数占样本总数的比例
错误率表示：E(f;D)=∫(x~D)‖(f(x)≠y)p(x)d(x)
精度表示：acc(f;D)=∫(x~D)‖(f(x)=y)p(x)d(x)=1-E(f;D)

2.查准率、查全率与F1

TP+FP+TN+FN=样本总数

真实情况	预测结果	预测结果
	正例	反例
正例	TP(真正例)	FN(假反例)
反例	FP(假正例)	TN(真反例)

查准率P=TP/(TP+FP)(真正正确的在预测正确中的比例）
查全率R=TP/(TP+FN)(真正正确的在真实正确中的比例）
查准率和查全率是一对矛盾的度量

P-R曲线
在这里插入图片描述
若一个学习器的P-R曲线被另一个学习器完全包住，则后者的性能优于前者，若有交叉则有如下方法判断：

基于BEP（平衡点(查准率=查全率）)的比较

F1度量
F1=2×P×R/(P+R)=2×TP/(样例总数+TP-TN)
F1的一般形式-Fβ
Fβ=(1+β^2)×P×R/(P+R)

先求查准率和查全率的平均值再计算
宏查准率:macro-P=1/n∑(Pi)
宏查全率:macro-R=1/n∑(Ri)
宏F1:macro-F1=(2×macro-P×macro-R)/(macro-P+macro-R)

先将混淆矩阵对应元素平均值再计算
微查准率:micro-P=TP的平均值/(TP的平均值+FP的平均值)
微查全率:micro-R=TP的平均值/(TP的平均值+FN的平均值)
微F1:micro-F1=(2×micro-P×micro-R)/(micro-P+micro-R)

3.ROC与AUC

ROC曲线的纵轴是真正确率TPR，横轴是假正确率FPR
TPR=TP/(TP+FN)
FPR=FP/(TN+FP)
通过调阈值(预测试与阈值比较来分为正反两类)改变TPR，FPR
在实际绘图中，给定m+个正例和m-个反例，设前一个标记点坐标(x,y)，当前若为真正例，则对应标记点的坐标为(x,y+1/m+)；当前若为假正例，则对应标记点的坐标为(x+1/m-,y)。
在这里插入图片描述

AUC(ROC曲线下的面积)当两ROC交叉时判断孰优孰劣。
公式：
在这里插入图片描述

4.代价敏感错误率和代价曲线

目的：为权衡不同类型错误所造成的不同损失
代价矩阵：

真实类别	预测类别	预测类别
	第0类	第1类
第0类	0	cost01
第1类	cost10	0

代价敏感错误率：
在这里插入图片描述
代价曲线：
横轴正例概率代价：

（p为正例比例）
纵轴归一化代价：
在这里插入图片描述

面积即为所在条件下学习器的期望总体代价。

扬志九洲

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
西瓜书第二章笔记中

一、性能量度性能量度：衡量模型泛化能力的评价标准。性能量度反映了任务需求，在对比不同模型的能力时，会使用不同的性能量度，使用不同的性能量度往往会导致不同的评判结果。方法：把学习器预测结果与真实标记比较二、常用性能量度1、回归任务最常用的性能量度：均分误差D={(x1,y1),(x2,y2),…,(xm,ym}为数据集，p(.)为概率密度表达式为E(f;D)=∫(x~D)(f(x)-y)^2 p(x)d(x)2、分类任务中常用的性能量度1.错误率与精度错误率：分类错误的样本数占样本总数的比例
复制链接

扫一扫