短文本分类概述

Table of Contents

定义

特点及难点

分类方法(转 有修改)

-传统文本分类方法

-深度学习文本分类方法

评价指标


定义

短文本通常是指长度比较短,一般不超过160个字符的文本形式,如微博、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等。短文本分类任务的目的是自动对用户输入的短文本进行处理,得到有价值的输出。在chatbot的构建过程中,对用户的意图进行识别是其中比较重要的一个部分,而意图识别的核心问题是如何对短文本进行分类。

特点及难点

  1. 稀疏性:短文本的内容较短,通常只包含几个到十几个有实际意义的词语,难以抽取有效的特征词。
  2. 实时性:短文本更新速度快、易于扩散。
  3. 海量性:短文本大量存在于人们的生活中,由于短文本的及时更新和快速传播,使互联网中积累了海量的短文本数据,这要求对于短文本的处理计算必须具有很高的速度。
  4. 不规范性:短文本表述简洁,简称、不规范用语以及网络流行用语被广泛使用,使文本噪音较大。如“天朝”-网络用语,“杯具”-谐音用法,“666”-新词汇。

短文本的特点使文本分类面临以下难点:

  1. 短文本特征词少,用传统的基于词条的向量空间模型表示,会造成向量空间的稀疏。另外,词频、词共现频率等信息不能得到充分利用,会丢失掉了词语间潜在的语义关联关系。
  2. 短文本的不规范性,使文本中出现不规则特征词和分词词典无法识别的未登录词,导致传统的文本预处理和文本表示方法不够准确。
  3. 短文本数据的规模巨大,在分类算法的选择上往往更倾向于非惰性的学习方法,避免造成过高的时间复杂度。

因此,短文本分类一般在预处理、文本表示、分类器的构建等环节中进行优化和改进,以提高分类效果和精度。

分类方法( 有修改)

-传统文本分类方法

伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典方法,整个文本分类问题就拆分成了特征工程和分类器两部分。

1.1 特征工程<

  • 9
    点赞
  • 66
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值