文本分类算法

本文介绍了文本分类的几种主流算法,包括词袋模型、FastText、TextCNN、TextRNN以及Bert。词袋模型利用TF-IDF表示文本特征,结合分类模型如LR进行训练。FastText引入n-grams和层次softmax降低计算复杂度。TextCNN通过卷积和最大池化处理文本。TextRNN利用RNN捕获序列信息。Bert则采用预训练和微调策略,使用Transformer结构学习语言模型。
摘要由CSDN通过智能技术生成

目录

一、传统机器学习方法——词袋模型

二、FastText

三、TextCNN

四、TextRNN

五、Bert


一、传统机器学习方法——词袋模型

TF值:某个词(字)在文本(一段话)中出现的频率

IDF值:某个词(字)在文本(一段话)中的普遍重要性的度量。某一词(字)的IDF值,可以由总文本数目除以包含该词(字)的文本的数目,再将得到的商取 10为底的对数。

词袋模型就是先用TF-IDF表示文本特征;然后把TF-IDF值和标签值送入分类模型训练。分类模型可以用LR模型、贝叶斯、SVM等。

详见 自然语言处理(NLP) 三:词袋模型 + 文本分类_smart boy-CSDN博客

二、FastText

preview

 第一步:输入层

 在word2vec中,它的输入就是单纯的把词袋向量化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值