NLP理论基础和实践(进阶)数据集探索 01

1.tensorflow安装

推荐Anaconda(针对自己操作系统和位数下载对应版本);推荐用conda create创建对应的python环境(注:某些python版本可能不支持tensorflow);通过pip install来安装tensorflow。

参考: 

tensorflow安装教程 

http://www.tensorflownews.com/series/tensorflow-install-tutorial/

2、数据集下载和探索

中文数据集:THUCNews

THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud

英文数据集:IMDB数据集 Sentiment Analysis

 

3、学习召回率、准确率、ROC曲线、

、PR曲线这些基本概念

召回率(Recall Rate,也叫查全率)是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统查准率

召回率(Recall)和精度(Precise)是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量

 

对于数据测试结果有下面4种情况:

TP: 预测为正,实际为正

TN: 预测为负,实际为负

FP:预测为正,实际为负

FN: 预测为负,实际为正

T/F:表示预测结果是否正确

P/N:表示预测结果是正或负样本

精确率、准确率:Accuracy=(TP+TN)/(TP+TN+FN+FP)

精准率、查准率: P = TP/ (TP+FP)

召回率、查全率: R = TP/ (TP+FN)

真正例率(同召回率、查全率):TPR = TP/ (TP+FN)

假正例率:FPR =FP/ (FP+TN)

F1-score: 2*TP/(2*TP + FP + FN)

 

召回率和精度示意图

recallrecall

假定:从一个大规模数据集合中检索文档时,可把文档分成四组:

- 系统检索到的相关文档(A)

- 系统检索到的不相关文档(B)

- 相关但是系统没有检索到的文档(C)

- 不相关且没有被系统检索到的文档(D)

则:

- 召回率R:用实际检索到相关文档数作为分子,所有相关文档总数作为分母,即R = A / ( A + C )

- 精度P:用实际检索到相关文档数作为分子,所有检索到的文档总数作为分母,即P = A / ( A + B )

举例来说:

一个数据库有500个文档,其中有50个文档符合定义。系统检索到75个文档,但是实际只有45个符合定义。则:

召回率R=45/50=90%

精度P=45/75=60%

本例中,系统检索是比较有效的,召回率为90%。但是结果有很大的噪音,有近一半的检索结果是不相关。 研究表明:在不牺牲精度的情况下,获得一个高召回率是很困难的。

 

ROC曲线:

受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以假阳性概率(False positive rate)为横轴,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。

ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。传统的诊断试验评价方法有一个共同的特点,必须将试验结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果划分为多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。因此,ROC曲线评价方法适用的范围更为广泛。

主要作用

1.ROC曲线能很容易地查出任意界限值时的对性能的识别能力。

2.选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好阈值,其假阳性和假阴性的总数最少。

3.两种或两种以上不同诊断试验对算法性能的比较。在对同一种算法的两种或两种以上诊断方法进行比较时,可将各试验的ROC曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的ROC曲线所代表的受试者工作最准确。亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,哪一种试验的 AUC最大,则哪一种试验的诊断价值最佳。

其中 roc曲线下的面积就是auc

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值