NLP(一):THUCNews和IMDB数据集探索和评价指标温习。

目录

1.IMDB数据集

1.1数据集介绍

1.2数据集探索

2.THUCnews数据集

2.1数据集介绍

2.2数据集探索

3.评价指标

3.1分类结果混淆矩阵

3.2准确率(查准率)

3.3召回率(查全率)

3.4ROC曲线和AUC


1.IMDB数据集

1.1数据集介绍

IMDB数据集下载地址为:http://ai.stanford.edu/~amaas/data/sentiment/

该数据集应用于影评情绪的分类。

另提一句,该数据集也集成在tensorflow的keras模块中,可以通过以下语句导入。

from keras.datasets import imdb

# num_words参数为保留训练集出现频率在前10000的词。
(train_data,train_labels),(test_data,test_labels) = imdb.load_data(num_words=10000)

1.2数据集探索

该数据下载后包含train和test两个文件夹和三个文件,其中test文件夹中的两个文件夹pos和neg分别为1.25W个代表积极和消极态度的训练样本。而train中的三个文件夹pos、neg、unsup分别为1.25W代表积极和消极态度的训练样本以及5W个未标记的样本。未标记样本可以用来作无监督学习时使用。

2.THUCnews数据集

2.1数据集介绍

THUCnews数据集下载地址为:https://pan.baidu.com/s/1hugrfRu 密码:qfud

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。——介绍出处:http://thuctc.thunlp.org/#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews

本次下载的数据集为部分数据,并非完整数据。

2.2数据集探索

下载后共有四个文件:cnews.train、cnews.test、cnews.val、cnews.vocab分别为训练集,测试集,验证集和所有数据集中汇集成的词典。cnews.vocab的每一行表示一个词。

3.评价指标

3.1分类结果混淆矩阵



3.2准确率(查准率)

precision=TP/(TP+FP)

理解为:在所有被预测为正例样本的数据中心,真正例样本的比例。

在sklearn中有该性能指标函数:

from sklearn.metrics import precision_score

precision_score(y_test, y_pred)

3.3召回率(查全率)

recall=TP/(TP+FN)

理解为:在所有预测集样本中,被正确预测为正例的样本于测试样本总数的比值。

可以看到准确率与召回率相矛盾。只有在一些简单的任务中才能使两者都高。

在sklearn中有该性能指标的函数:

from sklearn.metrics import recall_score

recall_score(y_test, y_pred)

3.4ROC曲线和AUC

先定义两个值:真正例率TPR=TP/(TP+FN),假正例率FPR=FP/(TN+FP)。

ROC全称为:受试者工作特征。以假正例率FPR为横轴,以真正例率TPR为纵轴的曲线称为ROC曲线。

ROC曲线包围的面积大小等于AUC,AUC是根据ROC曲线判别分类器性能好坏的指标。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值