文本分类学习笔记（1）- 概论

最新推荐文章于 2020-08-06 19:59:00 发布

锦堇年

最新推荐文章于 2020-08-06 19:59:00 发布

阅读量1k

点赞数

分类专栏：文本分类文章标签： NLP 文本分类学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qjc937044867/article/details/50266115

版权

一、文本分类

一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个，而文本的自动分类则是使用计算机程序来实现这样的分类。[1]中给出了多种文本分类的概念，参考其他资料发现主要有几点需要注意：第一，分类所需要的类别体系即类别及其标号是预先确定的；第二，一篇文档并没有严格规定只能被分配给一个类别，而是与分类这个问题的主观性有关，可以采用置信度来评估[2]；第三，文本分类不等价与“判断一篇文章说的是什么”（依据主题的分类），还可以判断作者的写作风格，主观情绪乃至辨别真伪。文本分类也不是“网页分类”，网页中包含的信息更多也更复杂。

二、文本分类的方法

文本分类的研究可以追溯到上世纪六十年代，早期的文本分类主要是基于知识工程（Knowledge Engineering），通过手工定义一些规则来对文本进行分类，这种方法费时费力，且必须对某一领域有足够的了解，才能写出合适的规则。到上世纪九十年代，随着网上在线文本的大量涌现和机器学习的兴起，大规模的文本（包括网页）分类和检索重新引起研究者的兴趣[1]。

文本分类作为一个分类问题构造一个分类函数或分类模型（分类器），根据待分类数据的某些特征来进行匹配。主要问题是文本表示、特征的选择与分类器的构建。

1、文本表示：即将文本表示为计算机“可读”形式。文本的检索经常产生大偏差的结果，主要原因是对文本和用户需求的表示和相似度运算没有真正反映其语义，在语言中尤其是中文语言处理中文本的语义和语用信息很难转换成形式化表达，因此寻求从词汇角度出发的文本表示。

目前文本表示模型主要是Gerard Salton和McGill于1969年提出的向量空间模型(VSM)[3]

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
文本分类学习笔记（1）- 概论

一、文本分类一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个，而文本的自动分类则是使用计算机程序来实现这样的分类。[1]中给出了多种文本分类的概念，参考其他资料发现主要有几点需要注意：第一，分类所需要的类别体系即类别及其标号是预先确定的；第二，一篇文档并没有严格规定只能被分配给一个类别，而是与分类这个问题的主观性有关，可以采用置信度来评估[2]；第三，文本分类不等价与“判断一
复制链接

扫一扫

专栏目录

锦堇年 CSDN认证博客专家 CSDN认证企业博客

码龄13年

42: 原创

23万+: 周排名

148万+: 总排名

11万+: 访问

: 等级

1554: 积分

79: 粉丝

34: 获赞

39: 评论

107: 收藏

私信

关注

热门文章

分类专栏

最新评论

文本分类学习笔记（4）- LR模型
weixin_51443576: 麻烦问一下为什么我调用from sklearn.linear_model import LogisticRegression会报错呢？报错代码是ModuleNotFoundError: No module named 'sklearn.linear_model.logistic'
学习笔记(3)-重叠社区发现Copra算法
LizLizLi: 请问大家用这个代码划分图的时候时间怎么样呢，为什么我用这份代码处理2000多个节点的图速度很慢呢，好像没有论文里说的那么快
学习笔记(3)-重叠社区发现Copra算法
胡杰灵: 请问可以再细说一下吗？还是不太懂
重叠社区发现-LFM算法
iezyzhang: 大佬还在么，源码能发我一份么，还有其他社区检测的源码更好。非常感谢！iezyzhang@163.com
学习笔记(3)-重叠社区发现Copra算法
风吹屁屁凉111: 这个代码迭代更新标签时是不是跟论文里的更新公式不一样，论文里分母上还有个邻居节点个数，代码是不是直接加的归属系数，没有除以邻居节点个数

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。