Task2

Overview

  • 数据集
  • 数据基础认识
  • 常用评价指标

数据集

下载链接:http://ai.stanford.edu/~amaas/data/sentiment/

数据

数据集中包含四个文本文件:cnews.test.txt,cnews.train.txt,cnews.val.txt,cnews.vocab.txt,包括训练集,验证集,测试集,和词典 (基本的处理放在后面)

常用的评价指标

  • 准确率(accuracy) :预测准确的在所有样本中的比例,其计算如下:
    在这里插入图片描述
  • 精确率(precision):所有预测为positive的结果中,预测正确的比重
    在这里插入图片描述
  • 召回率(recall):
    在这里插入图片描述
  • F1值
    在这里插入图片描述
    • P-R曲线
      PR曲线中的P(Precision)和R(Recall)分布意为“查准率”和“查全率”。以“查准率”为纵坐标,“查全率”为横坐标所做的曲线即为PR曲线。
      在这里插入图片描述
    • ROC曲线:
      ROC曲线中,以FPR为x轴,TPR为y轴。FPR指实际负样本中被错误预测为正样本的概率。TPR指实际正样本中被预测正确的概率。
      在这里插入图片描述

(1)曲线与FP_rate轴围成的面积(记作AUC)越大,说明性能越好,即图上L2曲线对应的性能优于曲线L1对应的性能。即:曲线越靠近A点(左上方)性能越好,曲线越靠近B点(右下方)曲线性能越差。
(2)A点是最完美的performance点,B处是性能最差点。
(3)位于C-D线上的点说明算法性能和random猜测是一样的–如C、D、E点。位于C-D之上(即曲线位于白色的三角形内)说明算法性能优于随机猜测–如G点,位于C-D之下(即曲线位于灰色的三角形内)说明算法性能差于随机猜测–如F点。
(4)虽然ROC曲线相比较于Precision和Recall等衡量指标更加合理,但是其在高不平衡数据条件下的的表现仍然过于理想,不能够很好的展示实际情况

参考网址:
[1] :https://blog.csdn.net/quiet_girl/article/details/70830796

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值