《IBM SPSS Modeler数据与文本挖掘实战》之文本挖掘算法

随着文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。现代文本分类和聚类领域面临巨大的挑战,而且随着学者研究的不断深入,其中的一些深层次问题也逐渐暴露出来,一些问题也已经成为本学科进一步发展的阻碍。但是,从另一个角度来说,它们也揭示了文本分类和聚类领域下一步应该重点研究的内容和方向。

文本自动分类是指将一个文本自动指定到一个或几个前期预定义的文本类别中。文本分类在文本检索、信息过滤、数据组织、信息管理以及互联网搜索等方面都有十分广泛的应用,有效地提高了信息服务的质量。文本自动分类及其相关技术的研究正日益成为文本挖据的研究热点。目前较为著名的文本分类算法包括支持向量机、朴素贝叶斯法、神经网络法、线性最小二乘法等,在本章中将会重点说明这些内容。

本章将详细介绍常用的文本分类算法,包括特征选择文本分类算法、支持向量机文本分类算法、朴素贝叶斯文本分类算法和KNN文本分类算法。

15.1  特征选择文本分类算法

15.1.1  文本特征表示

特征表示是指以一定特征项(例如词条或描述)来代表文档,在文本挖掘过程中,只需要对这些特征项进行处理,就可以实现对非结构化文本的处理。特征表示方法有很多种,常用的有布尔逻辑法、概率法、向量空间等方法。现有的绝大部分文本分类器都是使用向量空间模型中的“词袋法”来表示文本。这种方法有一个关键的假设,就是文章中出现的词条次序是无关紧要的,不考虑词条的具体位置信息以及文本结构,把文本看成是一系列无序词的集合。文本的特征就可以采用文本中的词条作为特征项,T1,T2,…,Tn 表示文档内容的特征项,可以看成是一个n维的坐标系,W1,W2,…,Wn 为对应的坐标值,所以每个文档d可以映射成为特征空间的一个特征向量V(d)=(T1,W1,T2,W2,…,Tn,Wn )。

在所有的权值函数中,最常用的是前面两种,它们在特征空间中一般可以获得比较好的分类精度。这两个公式都是基于以下的指导思想:在一个文本中出现次数较多的单词,在另一个同类文本中出现的次数也会很多,而且一个单词出现的额外文本频率越小,它区分不同类别文本的能力就越大。从公式的表达式也可以看出词条的重要性正比于词条的文档内频数,反比于文本集内出现该词条的文档频数。

15.1.2  文档预处理

进行文本特征选择前可以先进行一些初始化的文档筛选,通用的处理方法如下。

1. 停用词表

将一些在文本中出现频率高但含义虚泛的词放入停用词表。例如中文中的“的,得,地,这,尽管,但是”等,保证出现在停用词表中的词不能选作文档特征。

2. 稀有词处理

有些词条在整个文档集中出现的频率很低,也不适合作为文本的特征项。通过对文档集进行词条频率统计并设计一个词频阈值,词条频度低于这个词频阈值的词就被删除。

3. 单词归并

为了提高分类效果,采取单词归并和同义词归并的策略,把表达形式不同而含义相同,或是含义相似的词作为同一个词条处理,如英文中的football和soccer,中文中的“电脑”和“计算机”等。

4. 同根词处理

在英文中,还可以进行strip header和Stemming的操作来对文本进行初始化。例如:talker、talking、talked同属于一个词根talk。

15.1.3  文档特征选择

文本数据的半结构化甚至于无结构化的特点,使得用词袋法表示待测文档集时,特征向量会达到几万维甚至于几十万维,即使经过上述初始化筛选处理(使用停用词表、稀有词处理、单词归并以及同根词处理),还会有很多高维数的特征向量留下。高维的特征对分类机器学习未必都是至关重要和有益的。高维的特性可能会大大增加机器学习的时间而仅产生与小得多的特征子集相关的学习分类结果,因此,在进行文本分类时,特征选择显得至关重要。

特征选择的主要方法是利用有关数学工具降低模式维数,寻找最有效的特征构成较低维数的模式向量。统计学、模式识别和机器学习中都有许多进行特征选择的方法,如filter方法和wrapper方法,它们并没有本质的差别,不同点仅仅在于filter方法采用一些度量指标来评价特征子集的优劣,而wrapper方法直接用学习算法的准确率作为评判的指标。

特征选择主要用于排除确定的特征空间中那些被认为无关的或是关联性不大的特性,于是经常会使用特征独立性假设以简化特征选择,以达到计算时间和计算质量的折衷,因此,目前在对文本的特征空间所采取的特征选择算法一般是构造一个评价函数,对特征集中的每个特征进行独立的评估。这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集,所以,选取多少个最佳特性以及采用什么评价函数,都需要针对某一个具体的问题通过试验来决定。

在文本分类的特征选择中的评估函数有文档频数(Document Frequency)、信息增益(Information Gain)、期望交叉熵(Expected Cross Entropy)、互信息(Mutual Information)、文本证据权(The Weight of Evidence For Text)、单词权(Term Strength),对其效果和原因分析如下。

1. 文档频数(Document Frequency)

公式如下:

DFTxt(W)=单词出现的文档数/训练集的文档总数

它是最简单的评估函数,其值为训练集合中此单词发生的文本数占总的文本数的概率。DF评估函数的理论假设是:稀有单词要么不含有用信息,要么因太少而不足以对分类产生影响,要么是噪音,所以可以删去。虽然它在计算量上比其他的评估函数小得多,但是在实际运用中它的效果却是出奇地好。DFTxt也有缺点,因为稀有单词可能在某一类文本中并不稀有,而且包含着重要的判断信息。在实际运用中一般并不直接使用DFTxt,常把它作为评判其他评估函数的标准。

详细内容请参考《IBM SPSS Modeler数据与文本挖掘实战》中相关章节的内容。

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王国平

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值