文档自动分类模型--分类算法思路总结

简介

文本分类作为自然语言处理任务之一,被广泛应用于解决各种商业领域的问题。文本分类的目的是将 文本/文档 自动地归类为一种或多种预定义的类别。常见的文本分类应用如下:

  • 理解社交媒体用户的情感

  • 识别垃圾邮件与正常邮件

  • 自动标注用户的查询

  • 将新闻按已有的主题分类

主要步骤

文本分类属于有监督机器学习任务,这是因为文本分类任务利用一个包含文本/文档及其对应类标的有标注数据集来训练一个分类器。一个端到端的文本分类流程包括四个主要环节:

  1. 数据集准备: 第一步为数据准备,这一步包括数据加以及基本的预处理工作。数据集之后会被分割的训练集与验证集。

  2. 特征工程: 第二步为特征工程,在这一步中,原始数据会转变为适用于机器学习模型的特征。这一步还包括从已有数据中构建新的特征的过程。

  3. 模型训练: 最后一步为模型构建,在这一步中机器学习模型会在一个有标注数据集上进行训练。

  4. 提升文本分类器的性能: 在这篇文章中,我们还会关注各种提升文本分类器性能的方法。

特征工程的分类

原始数据会被转换为特征向量并且会从已有的数据中构建出新的特征。为了从我们的数据集中提取出相关的特征,我们会实现以下各种想法。

2.1 以计数向量为特征

2.2 TF-IDF 向量为特征

  • 词汇级

  • N-Gram 级

  • 字符级

2.3 以词向量为特征

2.4 基于 文本/自然语言处理 的特征

2.5 以主题模型为特征

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值