百面机器学习 模型评估

Q1:准确率的局限性

A1: 当负样本占99%时, 分类器把所有样本都预测为负样本也可以获得99%的准确率。 所以, 当不同类别的样本比例非常不均衡时, 占比大的类别往往成为影响准
确率的最主要因素。虽然模型的整体分类准确率高, 但是不代表对奢侈品用户的分类准确率也很高。为了解决这个问题, 可以使用更为有效的平均准确率(每个类别下的样本准确率的算术平均) 作为模型评估的指标。

Q2:ROC曲线相比P-R曲线有什么特点

相比P-R曲线, ROC曲线有一个特点, 当正负样本的分布发生变化时, ROC曲线的形状能够基本保持不变, 而P-R曲线的形状一般会发生较剧烈的变化。若选择不同的测试集, P-R曲线的变化就会非常大, 而ROC曲线则能够更加稳定地反映模型本身的好坏。 所以, ROC曲线的适用场景更多, 被广泛用于排序、 推荐、 广告等领域。 但需要注意的是, 选择P-R曲线还是ROC曲线是因实际问题而异的, 如果研究者希望更多地看到模型在特定数据集上的表现, P-R曲线则能够更直观地反映其性能。

Q3:探讨为什么在一些场景中要使用余弦相似度而不是欧氏距离?

在文本、 图像、视频等领域, 研究的对象的特征维度往往很高, 余弦相似度在高维情况下依然保持“相同时为1, 正交时为0, 相反时为-1”的性质, 而欧氏距离的数值则受维度的影响, 范围不固定, 并且含义也比较模糊。欧氏距离体现数值上的绝对差异, 而余弦距离体现方向上的相对差异。


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值