自然语言处理02

最新推荐文章于 2024-04-08 09:58:45 发布

zyhe

最新推荐文章于 2024-04-08 09:58:45 发布

阅读量187

点赞数

本文链接：https://blog.csdn.net/weixin_39903546/article/details/89163737

版权

数据集
数据集：中、英文数据集各一份
THUCNews中文数据集：https://pan.baidu.com/s/1hugrfRu 密码：qfud
IMDB英文数据集： IMDB数据集 Sentiment Analysis
IMDB数据集下载和探索模块及指标学习模块
THUCNews数据集下载和探索
学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念
数据已下载。
混淆矩阵

True Positive(真正，TP)：将正类预测为正类数

True Negative(真负，TN)：将负类预测为负类数

False Positive(假正，FP)：将负类预测为正类数误报 (Type I error)

False Negative(假负，FN)：将正类预测为负类数→漏报 (Type II error)

召回率：召回率是覆盖面的度量，度量有多个正例被分为正例，recall=TP/(TP+FN)=TP/P=sensitive，可以看到召回率与灵敏度是一样的。
准确率：准确率和召回率同为检索系统中的两大基本指标。准确率=符合条件的测定值个数/总测定值个数*100%，通常来说，准确率越高，分类器越好。但是有时候准确率高并不能代表一个算法就好。比如某个地区某天地震的预测，假设我们有一堆的特征作为地震分类的属性，类别只有两个：0：不发生地震、1：发生地震。一个不加思考的分类器，对每一个测试用例都将类别划分为0，那那么它就可能达到99%的准确率，但真的地震来临时，这个分类器毫无察觉，这个分类带来的损失是巨大的。为什么99%的准确率的分类器却不是我们想要的，因为这里数据分布不均衡，类别1的数据太少，完全错分类别1依然可以达到很高的准确率却忽视了我们关注的东西。再举个例子说明下。在正负样本不平衡的情况下，准确率这个评价指标有很大的缺陷。比如在互联网广告里面，点击的数量是很少的，一般只有千分之几，如果用acc，即使全部预测成负类（不点击）acc也有 99% 以上，没有意义。因此，单纯靠准确率来评价一个算法模型是远远不够科学全面的。
ACC=(TP+TN)/(TP+TN+FP+FN)

ROC曲线：ROC（Receiver Operating Characteristic）曲线是以假正率（FP_rate）和假负率（TP_rate）为轴的曲线，ROC曲线下面的面积叫做AUC，如下图所示：
在这里插入图片描述
AUC：分类器的AUC值等价于将随机选择的正样本排序在随机选择的负样本之前的概率。AUC越大，说明该分类器分类效果更好。
PR曲线：即，PR（Precision-Recall）曲线。
举个例子（例子来自Paper：Learning from eImbalanced Data）：
假设N_c>>P_c（即Negative的数量远远大于Positive的数量），若FP很大，即有很多N的sample被预测为P，因为这里写图片描述，因此FP_rate的值仍然很小（如果利用ROC曲线则会判断其性能很好，但是实际上其性能并不好），但是如果利用PR，因为Precision综合考虑了TP和FP的值，因此在极度不平衡的数据下（Positive的样本较少），PR曲线可能比ROC曲线更实用。