NLP基础学习2--常见数据集和评价指标

好久好久没有补交作业的感觉,今天收到群管理员的信息,才发现自己居然忘了提交作业,亏得自己还在群里瞎嘚瑟的回答别人关于精确率和准确率的问题,汗颜。补作业可能写的简略些,但我尽量记录下自己觉得比较重要的。

子任务1:数据集下载
本次作业,我看了一下,还是偏向于基础准备工作,首先是对于两个数据集的下载,包括IMDB和THUCNews。这两个数据集也算是比较常用,imdb因为之前做情感分析练手的时候已经下载过,下了组内的THUCNews的小数据集,完整版写这个博客的时候还在挂着下。THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。话说,看到这个数据集,想起博士答辩的时候,找孙老师签字被批的场景,哎,孙老师组的工作还是扎实啊,话说每一个基础中文数据集的构建,真的是受惠者众啊。

子任务2: 数据探索
我其实觉得数据探索这个子任务是值得花时间好好写,无奈补作业的时候夜已深,只好简单描述一下。 IMDB包括训练集、测试集、没有标签的数据。其中,训练集:25000条,正负各12500条;测试集:25000条,正负各12500条。THUCNews的组内提供的小数据集仅仅包含体育部分,50000条训练数据,10000条测试数据,5000条验证数据,以及一个vocab文件。

子任务3:评价指标
这里我简单写一下评价指标,首先TP TN FP FN 为混淆矩阵的四个元素,具体:
TP(True Positive): 将正类预测为正类数
TN(True Negative): 将负类预测为负类数
FP(False Positive): 将负类预测为正类数误报
FN(False Negative): 将正类预测为负类数
准确率(accuracy) = (TP+TN)/总样本数
精确率 (Precision) = TP/(TP+FP) ,反映的是分类的精度,
召回率(Recall) = TP/(TP+FN), 反映的是查全
F1值(F1 score) 是精确率和召回率的调和平均,即2PR/(P+R)
试想如果,一个分类器非常的谨慎,它只将最有把握的正样本识别出来,那么它的Precison会比较高,但是代价是会有很多正样本被预测成负样本,导致Recall很低。通常情况下,P 和 R 会是一个 Trade off。
PR曲线: 是由精确率和召回率的点连成的线,横轴为Recall ,纵轴为Precision,在PR曲线中越右上凸越好,PR想要Precision 和Recall同时高
ROC曲线, 其横轴是FPR, 纵轴是TPR,
ROC曲线重点了解下这几个节点:

  • (0,1)点:代表FPR=0,TPR=1; 最好的情况,所有正样本都被正确的预测了,并且没有负样本被人为是正样本。
  • (1,0)点:代表FPR=1,TPR=0;最坏的情况,表明所有的正样本都被错误的认为是负样本
  • (0,0)点:代表FPR=0,TPR=0;分类器将所有的样本都判定为负样本
  • (1,1)点:代表FPR=1,TPR=1;分类器将所有的样本都判定为正样本
    ROC曲线的面积就是AUC。 AUC = 1,是完美分类器,0.5 < AUC < 1,优于随机猜测。AUC = 0.5,跟随机猜测一样模型没有预测价值,随机猜测即ROC图中从(0,0)到(0,1)的直线包围的面积。 AUC < 0.5,比随机猜测还差。

最后截图就上之前用biLSTM +attention练习imdb情感分析的实验截图,表示一下对于数据集还算熟悉

IMDB情感分析练手实验

惯例最后保留参考文献,以便日后查阅
1)TensorFlow官方教程:影评文本分类 | TensorFlow (https://tensorflow.google.cn/tutorials/keras/basic_text_classification)
2)科赛 - Kesci.com (https://www.kesci.com/home/project/5b6c05409889570010ccce90)
3)博客中的数据集部分和预处理部分:CNN字符级中文文本分类-基于TensorFlow实现 - 一蓑烟雨 - CSDN博客 (https://blog.csdn.net/u011439796/article/details/77692621)
text-classification-cnn-rnn/cnews_loader.py at mas…(https://github.com/gaussic/text-classification-cnn-rnn/blob/master/data/cnews_loader.py)
4)机器学习之类别不平衡问题 (2) —— ROC和PR曲线_慕课手记(https://www.imooc.com/article/48072)
5)Jingyang Li, Maosong Sun. Scalable Term Selection for Text Categorization. Proc. of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, 2007, pp. 774-782.

6)Jingyang Li, Maosong Sun, Xian Zhang. A Comparison and Semi-Quantitative Analysis of Words and Character-Bigrams as Features in Chinese Text Categorization. Proc. of the 2006 Joint Conference of the International Committee on Computational Linguistics and the Association for Computational Linguistics (COLING-ACL 2006), Sydney, Australia, 2006, pp. 545-552.

7)Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). Learning Word Vectors for Sentiment Analysis. The 49th Annual Meeting of the Association for Computational Linguistics (ACL 2011)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值