文本分类小结

最新推荐文章于 2023-12-29 01:48:14 发布

gfangyao

最新推荐文章于 2023-12-29 01:48:14 发布

阅读量718

点赞数

本文链接：https://blog.csdn.net/gfangyao/article/details/116135620

版权

分类问题的定义：给定一个数据集，称为训练数据集，每个训练样本都是由属性值或特征值构成的特征向量，而且每个训练样本还有一个类标号属性，可表示为（v1,v2,…vn；c），v表示属性值，c表示类标号。
文本分类是自然语言处理领域的一个重要研究方向，是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。文本分类问题与其他分类问题没有本质上的区别，方法可以归结为根据分类数据的某些特征来进行匹配，当然完全的匹配不太现实，因此必须根据模型选择最优的匹配结果，从而完成分类。
文本分类方法一般分为传统机器学习方法和深度学习方法。文本处理过程主要分为文本预处理、文本特征提取、分类模型构建等。当然深度学习逃过了特征提取类似距离度量的定义过程，但是依然得有模型选择、参数优化、预处理等过程。

机器学习的文本分类方法

1、训练文本分类模型如图所示：
2、文本表示模型：
文本表示的目的是把预处理后的转换成计算机可以理解的方式，是决定文本分类质量的重要环节。
文本表示模型如布尔模型、向量空间模型VSM、潜在语义模型（LSA）、概率模型等，如何让有效的基于某种模型选择一种文本分类算法来构造分类器成为一个重要的课题。目前常用的表示模型是向量空间模型——多维向量。但是该模型最大的不足是忽略文本上下文关系，每个词之间互相独立，并且无法表征语义信息。
布尔模型：基于特征项的严格匹配模型，文本用特征变量来表示，虽然速度快易于表达一定程度的

最低0.47元/天解锁文章

gfangyao

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文本分类小结

    分类问题的定义：给定一个数据集，称为训练数据集，每个训练样本都是由属性值或特征值构成的特征向量，而且每个训练样本还有一个类标号属性，可表示为（v1,v2,…vn；c），v表示属性值，c表示类标号。    文本分类是自然语言处理领域的一个重要研究方向，是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。文本分类问题与其他分类问题没有本质上的区别，方法可以归结为根据分类数据的某些特征来进行匹配，当然完全的匹配不太现实，因此必须根据模型选择
复制链接

扫一扫