大话文本分类

最新推荐文章于 2024-07-30 14:11:00 发布

zchenack

最新推荐文章于 2024-07-30 14:11:00 发布

阅读量4.5k

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/hustchenze/article/details/79324346

版权

本文探讨了文本分类的传统机器学习方法，如TF-IDF、n-gram、LDA和word2vec，以及深度学习方法，如DAN、ADAN、CNN和HAN。深度学习通过词向量表示和注意力机制简化了特征提取，提高了分类效率。

摘要由CSDN通过智能技术生成

概述

文本分类是自然语言处理的重要应用，也可以说是最基础的应用。常见的文本分类应用有：新闻文本分类、信息检索、情感分析、意图判断等。本文主要针对文本分类的方法进行简单总结。

传统机器学习方法

分类问题一般的步骤可以分为特征提取、模型构建、算法寻优、交叉验证等。对于文本而言，如何进行特征提取是一个很重要也很有挑战性的问题。文本的特征是什么，如何量化为数学表达呢。

最开始的文本分类是基于规则的，特征就是关键词，例如足球在体育类出现的次数多，就将含有足球这一关键词的文本氛围体育。后来为了便于计算，通过构建词典采用one-hot编码，文本就被表示成1*V的向量，其中V为词典大小，向量数值取0或1，0表示该词在文本中未出现，1表示出现了。但one-hot编码没能反映词语在文本中出现的频率信息，于是出现了bag-of-words的文本表达，一则文本同样采用1 *V的向量表示，向量内元素不再是0或1，而是该词语出现的频率次数。但频率高的词不一定对分类贡献就大，例如词语“报道”，在新闻文档类别分类就不太重要，即使会出现很多次。于是出现了TF-IDF文本特征，TF表示词频，IDF表示反文本频率，TF-IDF一般表示词语用于分类的重要程度，实质是在文本中出现频率高、在所有语料中出现频率低的词语重要性高。

但是TF-IDF的文档表达只是考虑了词语频率信息，并未考虑词语的上下文结构信息以及词语隐含的主题信息。于是又发展了几种现阶段比较常用的分类特征：n-gram模型考虑上下文；主题模型LDA[2]通过无监督方法得到词语和文档在不同主题的分布情况；word2vec[1]用于得到词语之间的分布信息等。

文本分类过程大概可以描述为如下图，具体包括数据预处理、特征提取、分类器构建、模型评价等。对于中文文本而言，数据预处理包括：中文分词、词性标注（如果分类需要词性特征）、去停用词（去掉一些没什么含义的词语，会对分类产生影响，例如：你、我

最低0.47元/天解锁文章

zchenack

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
大话文本分类

概述文本分类是自然语言处理的重要应用，也可以说是最基础的应用。常见的文本分类应用有：新闻文本分类、信息检索、情感分析、意图判断等。本文主要针对文本分类的方法进行简单总结。传统机器学习方法分类问题一般的步骤可以分为特征提取、模型构建、算法寻优、交叉验证等。对于文本而言，如何进行特征提取是一个很重要也很有挑战性的问题。文本的特征是什么，如何量化为数学表达呢。最开始的文本分类是基于规则的，特征就是关键词...
复制链接

扫一扫

专栏目录