论文原文 | Convolutional Neural Networks for Sentence Classification |
---|---|
论文信息 | EMNLP2014 |
论文解读 | Zhenyu Zhang & Hytn Chen |
更新时间 | 2020-02-19 |
文本分类简介
发展历史历经基于规则的文本分类,基于特征的文本分类以及基于神经网络的文本分类三大阶段。
基于规则的文本分类基本思想就是使用人工编写特定的规则来进行分类,一般情况下,当文本中含有特定的词语、短语或者模式时即将其判断为相应的类别,是最古老也是最简单的一种分类方法。
工程流程就是输入文本,规则匹配,最后输出类别
基于特征的文本分类基本思想就是通过人工设计和提取特征,也就是特征工程之后,使用机器学习模型来捕获句子中蕴含的关键信息,从而减少噪声词对最终结果的影响。
以向量空间模型为例,首先使用词袋模型表示每个词;再使用词项作为特征项,TF-IDF值作为词项的权重;之后使用加权求和得到文本表示;最后训练一个分类器来进行文本分类。
基于神经网络的文本分类<