短文本分类概述

最新推荐文章于 2022-02-27 12:14:33 发布

refresh&grow

最新推荐文章于 2022-02-27 12:14:33 发布

阅读量1.6w

点赞数 9

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZJL0105/article/details/81074230

版权

短文本分类涉及对微博、聊天信息等短内容的自动处理，以提取有价值信息。其难点在于文本的稀疏性、实时性、海量性和不规范性。分类方法包括传统文本分类（如特征工程和统计分类方法）和深度学习方法（如CNN/RNN）。评价指标常用查准率、查全率和F1值。特征工程中的预处理、表示和扩展是关键，而深度学习能自动化特征提取，降低人工成本。

摘要由CSDN通过智能技术生成

Table of Contents

特点及难点

分类方法（转有修改）

－传统文本分类方法

－深度学习文本分类方法

定义

短文本通常是指长度比较短，一般不超过160个字符的文本形式，如微博、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等。短文本分类任务的目的是自动对用户输入的短文本进行处理，得到有价值的输出。在chatbot的构建过程中，对用户的意图进行识别是其中比较重要的一个部分，而意图识别的核心问题是如何对短文本进行分类。

特点及难点

稀疏性：短文本的内容较短，通常只包含几个到十几个有实际意义的词语，难以抽取有效的特征词。
实时性：短文本更新速度快、易于扩散。
海量性：短文本大量存在于人们的生活中，由于短文本的及时更新和快速传播，使互联网中积累了海量的短文本数据，这要求对于短文本的处理计算必须具有很高的速度。
不规范性：短文本表述简洁，简称、不规范用语以及网络流行用语被广泛使用，使文本噪音较大。如“天朝”－网络用语，“杯具”－谐音用法，“666”－新词汇。

短文本的特点使文本分类面临以下难点：

短文本特征词少，用传统的基于词条的向量空间模型表示，会造成向量空间的稀疏。另外，词频、词共现频率等信息不能得到充分利用，会丢失掉了词语间潜在的语义关联关系。
短文本的不规范性，使文本中出现不规则特征词和分词词典无法识别的未登录词，导致传统的文本预处理和文本表示方法不够准确。
短文本数据的规模巨大，在分类算法的选择上往往更倾向于非惰性的学习方法，避免造成过高的时间复杂度。

因此，短文本分类一般在预处理、文本表示、分类器的构建等环节中进行优化和改进，以提高分类效果和精度。

分类方法（转有修改）

－传统文本分类方法

伴随着统计学习方法的发展，特别是90年代后互联网在线文本数量增长和机器学习学科的兴起，逐渐形成了一套解决大规模文本分类问题的经典方法，整个文本分类问题就拆分成了特征工程和分类器两部分。

1.1 特征工程<

最低0.47元/天解锁文章

关注

9
点赞
踩
66

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。