文档分类的实现原理

最新推荐文章于 2021-08-29 19:40:07 发布

置顶

javaboolean

最新推荐文章于 2021-08-29 19:40:07 发布

阅读量4.8k

点赞数

分类专栏：自然语言处理文章标签：文本分类机器学习自然语言处理 LSI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/javaboolean/article/details/78556298

版权

本文介绍了文本分类的基本步骤，包括文档标注、格式转换、词典构建、词语权重计算，重点讨论了LSI主题建模在小规模文档分类任务中的应用，以及如何选择合适的K值和分类模型。

摘要由CSDN通过智能技术生成

文本分类是自然语言处理领域比较常见的一类任务，一般是给定多个文档类别，将文档或语句归类到某个类别中。其本质是文本特征提取+机器学习的多分类问题。解决此问题，最终实现文本分类预测的一般步骤总结如下。

1. 文档标注

文本分类任务可使用机器学习的多分类算法的思路解决，为了满足训练模型的需要，首先要将样本文档库中的所有文档打标签，将每个文档标注为待预测类别。若文档库中的文档已做好分类，此步骤可以省略。文档打标签的工作一般由人工完成，由于机器学习算法对训练样本数据的规模有要求，一般来说，训练出较准确的模型，至少需要5000以上的样本数据。所以文档标注工作是在5000以上的样本文档库中进行的，需要花费大量的重复劳动才能完成。

为减少标注工作量，可以借鉴半监督学习的思路，先尝试文本聚类的方式对样本库中的部分文档进行聚类，然后再人工修正聚类结果中分类错误的样本，最后对所有文档进行聚类。

2. 文档格式转换

样本文档库中的数据一般为Word、PDF、Excel等格式，为方便后期做向量化处理，需要将文档转换为Txt格式，转换后的文档中不含图片、不含格式，是纯文本。

3. 生成词典

提取文档中的特征，首先要针对整个文档库构建词典，构建词典的步骤如下。

（1）中文分词

使用中文分词技术可以将文档切割成词汇，常用的中文分词工具包是结巴分词器，该分词器支持全模式、精确模式、搜索引擎模式、基于 TF-IDF算法的关键词抽取模式共四种分词方式。建议使用精确模式或关键词抽取模式。

（2）去停用词

停用词是指文档中的连

最低0.47元/天解锁文章

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。