文档自动分类模型--分类算法思路总结

漂泊者_LGD

于 2019-06-06 23:28:22 发布

阅读量2k

点赞数

分类专栏： Python学习记录文章标签： TF_IDF LDA 文档分类主题模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012922806/article/details/91057065

版权

Python学习记录专栏收录该内容

14 篇文章

订阅专栏

简介

文本分类作为自然语言处理任务之一，被广泛应用于解决各种商业领域的问题。文本分类的目的是将文本/文档自动地归类为一种或多种预定义的类别。常见的文本分类应用如下：

理解社交媒体用户的情感
识别垃圾邮件与正常邮件
自动标注用户的查询
将新闻按已有的主题分类

主要步骤

文本分类属于有监督机器学习任务，这是因为文本分类任务利用一个包含文本/文档及其对应类标的有标注数据集来训练一个分类器。一个端到端的文本分类流程包括四个主要环节：

数据集准备: 第一步为数据准备，这一步包括数据加以及基本的预处理工作。数据集之后会被分割的训练集与验证集。
特征工程: 第二步为特征工程，在这一步中，原始数据会转变为适用于机器学习模型的特征。这一步还包括从已有数据中构建新的特征的过程。
模型训练: 最后一步为模型构建，在这一步中机器学习模型会在一个有标注数据集上进行训练。
提升文本分类器的性能: 在这篇文章中，我们还会关注各种提升文本分类器性能的方法。

特征工程的分类

原始数据会被转换为特征向量并且会从已有的数据中构建出新的特征。为了从我们的数据集中提取出相关的特征，我们会实现以下各种想法。

2.1 以计数向量为特征

2.2 TF-IDF 向量为特征

词汇级
N-Gram 级
字符级

2.3 以词向量为特征

2.4 基于文本/自然语言处理的特征

2.5 以主题模型为特征

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。