NLP（一）：THUCNews和IMDB数据集探索和评价指标温习。

最新推荐文章于 2024-08-17 22:50:48 发布

我想听相声

最新推荐文章于 2024-08-17 22:50:48 发布

阅读量1.1k

点赞数

分类专栏： NLP-learning 文章标签： THUCNews IMDB

本文链接：https://blog.csdn.net/weixin_42483560/article/details/89109292

版权

NLP-learning 专栏收录该内容

13 篇文章 5 订阅

订阅专栏

1.IMDB数据集

1.1数据集介绍

IMDB数据集下载地址为：http://ai.stanford.edu/~amaas/data/sentiment/

该数据集应用于影评情绪的分类。

另提一句，该数据集也集成在tensorflow的keras模块中，可以通过以下语句导入。

from keras.datasets import imdb

# num_words参数为保留训练集出现频率在前10000的词。
(train_data,train_labels),(test_data,test_labels) = imdb.load_data(num_words=10000)

1.2数据集探索

该数据下载后包含train和test两个文件夹和三个文件，其中test文件夹中的两个文件夹pos和neg分别为1.25W个代表积极和消极态度的训练样本。而train中的三个文件夹pos、neg、unsup分别为1.25W代表积极和消极态度的训练样本以及5W个未标记的样本。未标记样本可以用来作无监督学习时使用。

2.THUCnews数据集

2.1数据集介绍

THUCnews数据集下载地址为：https://pan.baidu.com/s/1hugrfRu 密码：qfud

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。——介绍出处：http://thuctc.thunlp.org/#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews

本次下载的数据集为部分数据，并非完整数据。

2.2数据集探索

下载后共有四个文件：cnews.train、cnews.test、cnews.val、cnews.vocab分别为训练集，测试集，验证集和所有数据集中汇集成的词典。cnews.vocab的每一行表示一个词。

3.评价指标

3.1分类结果混淆矩阵

3.2准确率（查准率）

precision=TP/(TP+FP)

理解为：在所有被预测为正例样本的数据中心，真正例样本的比例。

在sklearn中有该性能指标函数：

from sklearn.metrics import precision_score

precision_score(y_test, y_pred)

3.3召回率（查全率）

recall=TP/(TP+FN)

理解为：在所有预测集样本中，被正确预测为正例的样本于测试样本总数的比值。

可以看到准确率与召回率相矛盾。只有在一些简单的任务中才能使两者都高。

在sklearn中有该性能指标的函数：

from sklearn.metrics import recall_score

recall_score(y_test, y_pred)

3.4ROC曲线和AUC

先定义两个值：真正例率TPR=TP/(TP+FN)，假正例率FPR=FP/(TN+FP)。

ROC全称为：受试者工作特征。以假正例率FPR为横轴，以真正例率TPR为纵轴的曲线称为ROC曲线。

ROC曲线包围的面积大小等于AUC，AUC是根据ROC曲线判别分类器性能好坏的指标。

我想听相声

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录