NLP修炼之旅（Day2）

最新推荐文章于 2021-12-26 19:46:57 发布

我就叫小灰灰

最新推荐文章于 2021-12-26 19:46:57 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/weixin_43314778/article/details/89157472

版权

一、IMDB数据集

数据集介绍

IMDB数据集下载：http://ai.stanford.edu/~amaas/data/sentiment/
数据集简介：
IMDb创建于1990年10月17日，从1998年开始成为亚马逊公司旗下网站，数据集中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是IMDb评分。

数据集分析
数据下载后包括train和test两个文件夹与三个文件，其中test文件夹中的两个文件夹pos和neg分别为1.25w个代表积极与消极态度的训练样本，而train中的三个文件夹pos、neg和unsup分别为1.25w积极、消极态度训练样本以及5W个未标记的样本，未标记的样本可以用来无监督学习时使用

二、THUCNews中文数据集

数据集介绍

下载地址：
http://thuctc.thunlp.org/sendMessage
数据集介绍：
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测，准确率可以达到88.6%

数据集分析
THUCNews中文数据集包括四个文件：cnews.train.txt、cnews.val.txt、cnews.test.txt 和 cnews.vocab.txt

cnews.train.txt是训练数据
cnews.val.txt是验证数据
cnews.test.txt是测试数据
cnews.vocab.txt是词汇表、字符级、大小为5000根据频次选择

三、二分类问题

在二分类问题中，分类器将一个实例的分类器标记为是或者否，这可以用一个混淆矩阵来表示：
在这里插入图片描述
$\begin{aligned} \text { Recall } &=\frac{T P}{T P+F N} \\ \text { Precision } &=\frac{T P}{T P+F P} \\ \text { True Positive Rate } &=\frac{T P}{T P+F N} \\ \text { False Positive Rate } &=\frac{F P}{F P+T N} \end{aligned}$

四、准确率

准确率（precision）：所有预测中为正分类中预测正确所占的比例： $precision=\frac{\text {true positive}}{\text {true positive+false positive}}$

五、召回率

对正分类的所有预测中，预测正确的比例： $recall=\frac{\text {true positive}}{\text {true positive}+\text {false negative}}$

六、F1-Score

引入F1-Score作为综合指标，是为了平衡准确率和召回率的影响，较为全面的评价一个分类器： $F_{1}=\frac{2 P R}{P+R}=\frac{2 T P}{2 T P+F P+F N}$

七、ROC曲线

在ROC曲线中，以FPR为x轴，TPR为y轴
在这里插入图片描述
在ROC空间，ROC曲线越凸向左上方向效果越好

八、AUC

AUC(Area Under Curve)即指曲线下面积占总方格的比例。有时不同分类算法的ROC曲线存在交叉，因此很多时候用AUC值作为算法好坏的评判标准。面积越大，表示分类性能越好

我就叫小灰灰

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
NLP修炼之旅（Day2）

一、IMDB数据集数据集介绍IMDB数据集下载：http://ai.stanford.edu/~amaas/data/sentiment/数据集简介：IMDb创建于1990年10月17日，从1998年开始成为亚马逊公司旗下网站，数据集中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是IMDb评分。数据集分析数据下载后包括train和t...
复制链接

扫一扫