深度学习（CNN RNN）在文本分类中的应用

最新推荐文章于 2024-08-21 04:30:28 发布

情怀丶

最新推荐文章于 2024-08-21 04:30:28 发布

阅读量8.8k

点赞数 1

分类专栏： Natural Language Processing Deep Learning 文章标签：文本分类深度学习 CNN RNN 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/selinda001/article/details/80446423

版权

本文探讨了深度学习在文本分类中的应用，从文本分类的历史、特征工程、预处理到深度学习分类器的选择，如CNN和RNN。重点介绍了词袋模型、TF-IDF、TextCNN和fastText，并强调了深度学习参数调节的重要性。

摘要由CSDN通过智能技术生成

一、文本分类

历史

上世纪 50 年代：专家规则（pattern）

上世纪 80 年代：知识工程建立专家系统

上世纪 90年代后：统计学习方法，人工特征工程 + 浅层分类模型

特征工程

机器学习的目标是把数据转换成信息，再提炼到知识的过程。特征工程没有很强的通用性，主要要结合对特征任务的理解，主要分为，文本预处理、特征提取、文本表示，将文本转换为计算机可以理解的形式，封装能够分类的信息，即有很强的特征表达能力。

特征：数据—信息，决定结果的上限
分类器：信息—知识，逼近结果的上限

文本预处理

预处理就是在文本中提取关键词表示文本的过程，中文文本处理主要包括文本分词和去除停用词。

中文分词：特征粒度为词粒度比字粒度要好，分类算法不考虑词序信息，字粒度损失了过多的“n-gram”信息，常见方法有：

基于字符串匹配的正向/逆向/双向最大匹配
基于理解的句法和语义分析消歧
基于统计的互信息/CRF
WordEmbedding + Bi - LSTM + CRF

停用词：在文本中高频出现并且对文本分类无意义的词

删除停用表中的词，属于特征选择的一部分

表示学习

文本表示：将预处理之后的文本转换为计算机可以理解的部分，决定文本分类的质量，常用方法为词袋模型或者向量空间模型，但是忽略了文本上下文的关系，每个词彼此之间独立，无法表征语义信息。

词袋模型（BOW, Bag Of Words) ：

高维度、高稀疏性

向量空间模型（Vector Space Model）：

最低0.47元/天解锁文章

关注

1
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。