datawheel nlp入门之新闻文本分类task1

目的:对新闻文本进行分类。

1. 评测指标:F1-score得分

在引入f1-score得分前,先引入混淆矩阵的概念:
在这里插入图片描述
真阳性:True Positive 预测为正时,实际为正。
假阳性:False Posivtive 预测为正时,实际为反。
假阴性:False Negative 预测为反时、实际为正。
真阴性:True Negative 预测为反时、实际为反。
可得
精准率presion
在这里插入图片描述
精确率描述的是有多少被分类正确的,针对预测样本而言。
召回率recall
在这里插入图片描述
召回率是有多少样本被正确的预测了出来,针对实际样本而言。
二者是一个相矛盾的过程。一个是查的准,一个是查的全。对于二者,应区分在不同的情况下,侧重什么。
而F1-score得分:则是他们的调和平均数。
在这里插入图片描述
在这里插入图片描述

Fβ是加权调和平均:
在这里插入图片描述在这里插入图片描述
而当β>1时,recall值有更大影响,β<1时,presion值更有影响。

roc曲线和auc。

2. TF-IDF + 机器学习分类器

tf-idf是一种词频统计方法。常用于挖掘文章中的关键词。
而将其拆开,其中TF(term frequency)词频,IDF(inverse Document Frequency)逆文档频率。
TF-IDF算法步骤:
a. 计算词频
在这里插入图片描述
因为文章有长短之分,所以将其标准化,更有利于不同文章之间的比较
在这里插入图片描述
b. 计算逆文档频率:
(需要语料库,用来模拟语言的使用环境)
在这里插入图片描述
c. 计算TF-IDF
在这里插入图片描述
优点:简单快速、容易理解。
缺点:用词频来衡量文章中的一个词的重要性不够全面。无法体现位置信息,不能体现在上下文中的重要性。
如果要体现词的上下文结构,可以使用word2vec算法。

3.WordVec + 深度学习分类器

word2vec:从大量文本语料中以无监督的方式学习语义知识的一种模型。本质就是通过学习文本来用词向量的方式表示词的语义信息。即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。
Embedding:映射。将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去。
word2vec模型中,主要有skip-gram和cbow模型。
skip-gram:给定input word来预测上下文。
cbow:给定上下文,来预测input word。
在这里插入图片描述
第一部分为建立模型。先基于训练数据构建神经网络。
第二部分是通过模型获取嵌入词向量。

4. Bert词向量

5. FastText

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值