文本分类

文本分类介绍

文本分类问题是根据文本的特征将其分到预先设定好的类别中,类别可以是两类,也可以是更多的类别。文本分类是机器学习领域里监督学习的一种重要应用问题。不过需要指出的是,第一,文本分类问题中用于构建文本自动分类系统的文本类别体系是已经确定的。类别系统一旦变化,需要重新构建新的文本分类系统;第二,在文本分类问题中,并没有特别要求一篇文本只能属于某一个类别,例如,根据主题的分类中每篇文本可能会被分到多个类别中,因此文本分类是一个具有主观性的应用问题。
由于文本数据是互联网时代一种最常见的数据形式,新闻报道、网页、电子邮件、学术论文、评论留言、博客文章等都是常见的文本数据的类型,文本分类问题所采用的类别划分往往也会根据主管目的不同而具有较大差别,例如,根据文本内容可以有“政治”、“经济”、“体育”等不同类别;根据应用目的要求,检测垃圾邮件时,可以有“垃圾邮件”、“非垃圾邮件”;根据文本特点分类时,做情感分析时,可以有“积极情感文本”、“消极情感文本”。

文本分类技术

文本分类问题描述

文本分类问题作为一种监督学习的应用问题,与机器学习领域的分类问题并没有本质的区别,其方法可以归结为利用待分类数据的特征与类别进行匹配,选择最优的匹配结果作为分类结果,可以通过机器学习的框架进行描述文本分类问题。文本分类分为两个过程:学习过程、分类过程。如下图所示:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值