Datawhale《深度学习-NLP》Task1- 召回率、准确率、ROC曲线、AUC、PR曲线学习理解

Task1 数据集探索

1. 数据集

数据集:中、英文数据集各一份 中文数据集:THUCNews THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud

英文数据集:IMDB数据集 Sentiment Analysis

2. IMDB数据集下载和探索

参考TensorFlow官方教程:影评文本分类  |  TensorFlow

科赛 - Kesci.com

 

3. THUCNews数据集下载和探索 参考博客中的数据集部分和预处理部分:CNN字符级中文文本分类-基于TensorFlow实现 - 一蓑烟雨 - CSDN博客

参考代码:text-classification-cnn-rnn/cnews_loader.py at mas...

4. 学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

参考1:机器学习之类别不平衡问题 (2) —— ROC和PR曲线_慕课手记

 

1. 召回率,准确率,精确率:

准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%,大白话:“你的预测有多少是对的”
精确率(precision) = TP/(TP+FP) = 80%  “在你认为正例里面,有多少是真的正例?” 或者 “在你认为有故障的里面,有多少是真有故障的” (针对你认为认为正例的)
召回率(recall) = TP/(TP+FN) = 2/3,大白话:“正例里你的预测覆盖了多少” 或者“在真故障中,你预测对并召回了多少?” (针对真故障的)

召回率:

召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
R = \frac{TP}{TP+FN}

在 "真故障" 车中有多少 "我觉得有故障".

但是这和 recall, 召回有半毛钱关系? 后来我想了想, 还是有点关系的. 生产完成后,有些没检测出来的问题车(False Negative)也卖给客人了. 有一天发现问题要召回FN的车. 怎么看这个比例呢?

按"召回"的字面意思可以是:

  • 召回率 = 召回 / 真故障 = FN / (TP+FN)

但是实际却是:

  • 召回率 = 1 - (召回/真故障) = 1 - FN / (TP+FN) =
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值