目录
1.IMDB数据集
1.1数据集介绍
IMDB数据集下载地址为:http://ai.stanford.edu/~amaas/data/sentiment/
该数据集应用于影评情绪的分类。
另提一句,该数据集也集成在tensorflow的keras模块中,可以通过以下语句导入。
from keras.datasets import imdb
# num_words参数为保留训练集出现频率在前10000的词。
(train_data,train_labels),(test_data,test_labels) = imdb.load_data(num_words=10000)
1.2数据集探索
该数据下载后包含train和test两个文件夹和三个文件,其中test文件夹中的两个文件夹pos和neg分别为1.25W个代表积极和消极态度的训练样本。而train中的三个文件夹pos、neg、unsup分别为1.25W代表积极和消极态度的训练样本以及5W个未标记的样本。未标记样本可以用来作无监督学习时使用。
2.THUCnews数据集
2.1数据集介绍
THUCnews数据集下载地址为:https://pan.baidu.com/s/1hugrfRu 密码:qfud
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。——介绍出处:http://thuctc.thunlp.org/#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews
本次下载的数据集为部分数据,并非完整数据。
2.2数据集探索
下载后共有四个文件:cnews.train、cnews.test、cnews.val、cnews.vocab分别为训练集,测试集,验证集和所有数据集中汇集成的词典。cnews.vocab的每一行表示一个词。
3.评价指标
3.1分类结果混淆矩阵
3.2准确率(查准率)
precision=TP/(TP+FP)
理解为:在所有被预测为正例样本的数据中心,真正例样本的比例。
在sklearn中有该性能指标函数:
from sklearn.metrics import precision_score
precision_score(y_test, y_pred)
3.3召回率(查全率)
recall=TP/(TP+FN)
理解为:在所有预测集样本中,被正确预测为正例的样本于测试样本总数的比值。
可以看到准确率与召回率相矛盾。只有在一些简单的任务中才能使两者都高。
在sklearn中有该性能指标的函数:
from sklearn.metrics import recall_score
recall_score(y_test, y_pred)
3.4ROC曲线和AUC
先定义两个值:真正例率TPR=TP/(TP+FN),假正例率FPR=FP/(TN+FP)。
ROC全称为:受试者工作特征。以假正例率FPR为横轴,以真正例率TPR为纵轴的曲线称为ROC曲线。
ROC曲线包围的面积大小等于AUC,AUC是根据ROC曲线判别分类器性能好坏的指标。