模型评估方法

1、Accuracy作为指标有哪些局限性
准确率是指分类正确的样本占总样本的比例,但存在明显的缺陷。比如负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率。所以,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素,此时准确率指标并不足以说明分类器的好坏。
2、ROC曲线和PR曲线各是什么?
ROC:横轴是FPR(真正例率),纵轴是TPR(假负例率)召回率:原来样本中所有的正样本中,多少被预测为正样本。
PR: 是由精确率和召回率的点连成的线,横轴为Recall ,纵轴为Precision,在PR曲线中越右上凸越好,PR想要Precision 和Recall同时高
3、实现AUC计算、给出复杂度
在这里插入图片描述
M为正类样本的数目,N为负类样本的数目:首先对score从小到大排序,第一个正样本的位置就是其比负样本得分大的个数,对于第二个样本,需要减去前面已有的一个正样本,以此类推,第M个样本需要减去M-1。最后再除以M×N。
4、AUC指标有什么特点?放缩结果对AUC是否有影响?
AUC指的是ROC曲线下的面积,介于0和1之间。AUC作为数值可以直观地评价分类器的好坏,值越大越好。他的统计意义是从哪个所有正样本随机抽取一个正样本,从所有负样本随机抽取一个负样本,当前score使得正样本排在负样本前面的概率。
放缩结果对AUC无影响
5、余弦距离与欧式距离有什么特点?
**欧式距离**:相比欧式距离,余弦距离更加注重两个向量在方向上的差异。当对向量进行归一化后,欧式距离与余弦距离一致
在这里插入图片描述
**余弦距离**,也称余弦相似度,使用向量空间中的两个向量夹角的余弦值作为衡量两个个体间差异大小的度量。如果两个向量的方向一致,即夹角接近零
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值