文本挖掘之文本分类

文本分类介绍

文本分类问题是根据文本的特征将其分到预先设定好的类别中,类别可以是两类,也可以是更多的类别。文本分类是机器学习领域里监督学习的一种重要应用问题。不过需要指出的是,第一,文本分类问题中用于构建文本自动分类系统的文本类别体系是已经确定的。类别系统一旦变化,需要重新构建新的文本分类系统;第二,在文本分类问题中,并没有特别要求一篇文本只能属于某一个类别,例如,根据主题的分类中每篇文本可能会被分到多个类别中,因此文本分类是一个具有主观性的应用问题。
由于文本数据是互联网时代一种最常见的数据形式,新闻报道、网页、电子邮件、学术论文、评论留言、博客文章等都是常见的文本数据的类型,文本分类问题所采用的类别划分往往也会根据主管目的不同而具有较大差别,例如,根据文本内容可以有“政治”、“经济”、“体育”等不同类别;根据应用目的要求,检测垃圾邮件时,可以有“垃圾邮件”、“非垃圾邮件”;根据文本特点分类时,做情感分析时,可以有“积极情感文本”、“消极情感文本”。

文本分类技术

文本分类问题描述

文本分类问题作为一种监督学习的应用问题,与机器学习领域的分类问题并没有本质的区别,其方法可以归结为利用待分类数据的特征与类别进行匹配,选择最优的匹配结果作为分类结果,可以通过机器学习的框架进行描述文本分类问题。文本分类分为两个过程:学习过程、分类过程。如下图所示:
这里写图片描述
在上图中,首先有一些训练样本文本D1,D2,…,Dn以及其所属类别标注c1,c2,…cn,学习系统从标注的训练样本中学习出一个函数f(D),这里函数自变量为文本特征数据,函数值为文本对应的类别,或是学习出一个条件概率分布P(c|D),这就是学到的分类器。对于新给出的文本Dn+1,分类系统利用学习出的分类器对其进行分类。分类问题中,最简单的莫过于二分类问题了,例如垃圾邮件检测就是典型的二分类问题。当然对于多分类问题,可以采用“一类对其他所有类”的方法,把问题转化为二分类问题来做。

文本分类的方法

对于上面所描述的文本分类问题,最核心之处在于如何构建文本的特征空间才能快速有效的进行文本的分类。最初的词语匹配方法是将文档中的词语与类别名称中的词(或是其近义词)进行匹配,根据匹配度判断文档所属类别,很显然,这种过于简单的方法效果是不理想的。后续利用知识工程的方法加入人为设定的推理规则以帮助提高文本分类的准确率,但是这样一来,人为设定的规则好坏直接影响分类效果,而且完全不具备可推广性。
针对之前的分类方法的不足,依据经验,让计算机自己通过对大量同类文本的学习得出经验,作为新的文本的分类的依据。这就是统计学习方法的思想(机器学习),这也是如今文本分类的主流方法,这类方法具有坚实的统计学理论基础以及明确的评价标准,实际效果也非常好。

统计学习方法

文本分类问题中非常适合的文本表示模型就是向量空间模型(VSM),VSM不仅考虑了文本中包含哪些词语,这些词语出现的次数也考虑了,这对分类至关重要。VSM将每一篇文本视为特征项集合,利用加权特征项构成向量进行文本表示,利用词频信息对文本特征进行加权,VSM实现简单,分类准确度较高,能够满足一般应用的需求。VSM这种文本表示模型,完全忽略词语之间的上下文信息,如此一来,VSM所能表达的文本信息量存在上限。

训练分类模型

如上面所说的,统计学习方法将文本分类分为两个阶段,训练阶段(有计算机自动总结分类的规则)和分类阶段(对新文本进行分类)。机器学习的核心分类器模型都可以用于文本分类,常用的模型和算法有:支持向量机(SVM)、边缘感知机、k-最近邻算法(KNN)、决策树、朴素贝叶斯(NB)、贝叶斯网络、Adaboost算法、逻辑斯蒂回归、神经网络等。
在训练阶段,计算机根据训练集中文档,使用特征提取(包括特征选择和特征抽取)找出最具有代表性的词典向量(选取最具代表性的词语),按照这个词典将训练集文档转化为向量表示,有了文本数据的向量表示,就可以利用分类器模型进行学习了。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值