大话文本分类

本文探讨了文本分类的传统机器学习方法,如TF-IDF、n-gram、LDA和word2vec,以及深度学习方法,如DAN、ADAN、CNN和HAN。深度学习通过词向量表示和注意力机制简化了特征提取,提高了分类效率。
摘要由CSDN通过智能技术生成

概述

文本分类是自然语言处理的重要应用,也可以说是最基础的应用。常见的文本分类应用有:新闻文本分类、信息检索、情感分析、意图判断等。本文主要针对文本分类的方法进行简单总结。

传统机器学习方法

分类问题一般的步骤可以分为特征提取、模型构建、算法寻优、交叉验证等。对于文本而言,如何进行特征提取是一个很重要也很有挑战性的问题。文本的特征是什么,如何量化为数学表达呢。

最开始的文本分类是基于规则的,特征就是关键词,例如足球在体育类出现的次数多,就将含有足球这一关键词的文本氛围体育。后来为了便于计算,通过构建词典采用one-hot编码,文本就被表示成1*V的向量,其中V为词典大小,向量数值取010表示该词在文本中未出现,1表示出现了。但one-hot编码没能反映词语在文本中出现的频率信息,于是出现了bag-of-words的文本表达,一则文本同样采用1 *V的向量表示,向量内元素不再是01,而是该词语出现的频率次数。但频率高的词不一定对分类贡献就大,例如词语“报道”,在新闻文档类别分类就不太重要,即使会出现很多次。于是出现了TF-IDF文本特征,TF表示词频,IDF表示反文本频率,TF-IDF一般表示词语用于分类的重要程度,实质是在文本中出现频率高、在所有语料中出现频率低的词语重要性高。

但是TF-IDF的文档表达只是考虑了词语频率信息,并未考虑词语的上下文结构信息以及词语隐含的主题信息。于是又发展了几种现阶段比较常用的分类特征:n-gram模型考虑上下文;主题模型LDA[2]通过无监督方法得到词语和文档在不同主题的分布情况;word2vec[1]用于得到词语之间的分布信息等。


文本分类过程大概可以描述为如下图,具体包括数据预处理、特征提取分类器构建、模型评价等。对于中文文本而言,数据预处理包括:中文分词、词性标注如果分类需要词性特征)、去停用词(去掉一些没什么含义的词语,会对分类产生影响,例如:你

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值