Task1 数据集探索
1. 数据集
数据集:中、英文数据集各一份 中文数据集:THUCNews THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud
英文数据集:IMDB数据集 Sentiment Analysis
2. IMDB数据集下载和探索
参考TensorFlow官方教程:影评文本分类 | TensorFlow
科赛 - Kesci.com
3. THUCNews数据集下载和探索 参考博客中的数据集部分和预处理部分:CNN字符级中文文本分类-基于TensorFlow实现 - 一蓑烟雨 - CSDN博客
参考代码:text-classification-cnn-rnn/cnews_loader.py at mas...
4. 学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念
参考1:机器学习之类别不平衡问题 (2) —— ROC和PR曲线_慕课手记
1. 召回率,准确率,精确率:
准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%,大白话:“你的预测有多少是对的”
精确率(precision) = TP/(TP+FP) = 80% “在你认为正例里面,有多少是真的正例?” 或者 “在你认为有故障的里面,有多少是真有故障的” (针对你认为认为正例的)
召回率(recall) = TP/(TP+FN) = 2/3,大白话:“正例里你的预测覆盖了多少” 或者“在真故障中,你预测对并召回了多少?” (针对真故障的)
召回率:
召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
在 "真故障" 车中有多少 "我觉得有故障".
但是这和 recall, 召回有半毛钱关系? 后来我想了想, 还是有点关系的. 生产完成后,有些没检测出来的问题车(False Negative)也卖给客人了. 有一天发现问题要召回FN的车. 怎么看这个比例呢?
按"召回"的字面意思可以是:
- 召回率 = 召回 / 真故障 = FN / (TP+FN)
但是实际却是:
- 召回率 = 1 - (召回/真故障) = 1 - FN / (TP+FN) =