自然语言处理：经典的两个数据集和评价指标

最新推荐文章于 2023-04-15 10:57:58 发布

IT小叮当

最新推荐文章于 2023-04-15 10:57:58 发布

阅读量1.4k

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/weixin_42662262/article/details/89154873

版权

自然语言处理专栏收录该内容

6 篇文章 0 订阅

订阅专栏

自然语言处理：数据集（一）

THUCNews中文数据集

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。清华大学THUCTC项目组.在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
alt
该数据集可在清华大学THUCTC项目组网页中下载。
在这里插入图片描述
填写完姓名、邮箱、等信息，遵守相关协议后，即可下载。

如果，你觉得这个数据集太大，还可以下载其数据子集：
https://pan.baidu.com/s/1hugrfRu 密码：qfud

“Github”.上也有相关的数据子集生成方法，以及基于CNN和RNN的文本分类。

IMDB英文数据集

IMDB是Internet Movie Database（互联网电影数据库）的缩写。IMDB也是美国的一个权威的电影网站，除了电影资料外，还给影片做了评分。
在这里插入图片描述
IMDB数据集，包含了25000条高极性的电影评论训练集，和25000条的测试集。是自然语言处理文本二分类问题的经典数据集。

该数据集可以从“相关网址”上直接下载，若用于科研等，请引用该作者的论文，遵守相关协议即可。
在这里插入图片描述

召回率、准确率、ROC曲线、AUC、PR曲线

对于这些概念的理解，我们首先来认识4个指标。

TP（True Positive）:将正类预测为正类
TN（True Negative）:将负类预测为负类
False Positive(FP) : 将负类预测为了正类
False Negative(FN) : 将正类预测为了负类
对于上述四个指标，我们可以建立混淆度矩阵来进行表示。

对于分类模型，我们希望越准越好。对应到混淆矩阵中，TP与TN的数量越大越好，而FP与FN的数量越小越好。当我们得到了模型的混淆矩阵后，就需要去看有多少观测值在第二、四象限对应的位置，这里的数值越多越好；反之，在第一、三四象限对应位置出现的观测值越少越好。

准确率（Accuracy）
准确率指，所有判断正确的结果占总观测值的比重。
在这里插入图片描述
精确率（Precision）
精确率指，在所有预测为positive的结果中，预测正确的比重。

召回率（Recall）
召回率指，在所有真实值为positive的结果中，预测正确的比重。

F1值
F1值是精确率和召回率的调和平均数（各变量倒数算术平均数的倒数）
在这里插入图片描述
F1值的计算如下

ROC曲线、AUC、PR曲线
待续…

IT小叮当

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理：经典的两个数据集和评价指标

自然语言处理：数据集（一）THUCNews中文数据集赛题数据预处理及分析训练集、测试集的构建赛题任务解读THUCNews中文数据集THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。清华大学THUCTC项目组.在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产...
复制链接

扫一扫