下面介绍理论基础:应用最广泛的文本分类的学习算法是在信息检索中发展起来的计算相似度的方法,在文本分类中是通过对训练集学习,构成类别向量 Cj,然后以向量的内积计算待分类向量 d’与类别向量距离, 对每一类都由一个特征向量 Cj,由带类别标记训练集的得到的。用这些向量对待分文本 d’分类,待分文本也表示成向量 d’,然后分别计算与各类特征向量的余弦,d’将属于余弦值最大的类别。见公式
H(d')=argmaxcos(Cj,d'),其中Cj属于类别集合C
文本分类中常用的统计方法是利用文本的概率模型,基本思想是利用词和文本的联合概率估计文本所属类别的概率,纯粹贝叶斯假设文本是基于词的 unigram 模型,即文本中词的出现依赖于文本类别,但不依赖于其他词及文本的长度也就是说,词于词之间是独立的。具体算法如下:设集合 X 代表文本的内容,其中元素 x 表示训练文本 d 包含 x 的概率即为 p(x|d)通过全概率理论和贝叶斯理论,我们可以得到:
为了便于处理假设 X 提供的关于 d 的信息足够多,包含 Cj 类别信息,即 Cj 的信息是冗余的,可以认为Pr(d|Cj,x)=Pr(d|x),
故(2)式便可简化为
对于 X 集 的选择,元素 x 是通过 n-gram 模型计算的得到的,即 x 的概率是与特征集 F 前 n个词的相关的, 从中我们可以看到,n 的大小决定了分类算法的质量和精确度,在这里我们采用最简单的形式 n=1 作为开始,可以想象,若 n=|d|,Pr(Cj|d)=Pr(Cj|x),精确度将很高,
但计算起来将非常复杂,我们采用纯粹贝叶斯假设,即词与词之间是独立的,即 n=1 作为研究的起点,则(3) 就被简化为
其中:Pr(w|d)用训练文本 d 中 w 出现的次数来表示,,Pr(Cj|w)表示当文本中有词 w 出现时,文属于第 j 类的概率。通过训练集由贝叶斯公式得到后验概率:
其 中 : 由 训 练 语 料 的 文 本 数 我 们 可 以 得 到 Cj 先 验 概 率 和 后 验 概 率 Pr(w|Cj)的 值 :
其 中 |Cj| 为 训 练 集 中 某 一 类 的 文 档 数 , |D| 训 练 集 的 总 文 本 数
DF 为 Cj 类中出现 w 的次数,|Cj|为训练集中该类的文本数,我们可以得到文本类别贝叶斯判别式为:
在对上述方法的实现中,文本特征均以 DF 来表示,通过我们实验表明,DF 是特征表示法中的一个简单、费用较低的工具,其效果与其它方法相当。获取 DF 的过程,首先除去停用词,然后统计词频,这里采用的词频即某一个词 w 出现在该类文本中个数,给定阈值后,词频大于阈值的词作为该类文本的特征,形成特征向量 F。在对篮球和足球分类中我们发现,对于不易分别的文本,会在两类特征向量中由很多相似的特征,且在两类文本中出现的概率均衡,区分性信息不好,如“得分”,在篮球和足球中都会经常出现,但仅通过这个词,我们不能文本属于哪一类,而两类中出现词频差别较大的词,即使词频较低,也具有很强的区分信息,因此我们提出了一种改进的分类方法,在贝叶斯分
类的基础上,对区分性好的词增加权重,对分类性差的词降低权值,具体方法是:用出现的词 频 作 第 一 次 的 排 序 , 再 用 似 然 比 对 其 分 类 性 能 作 第 二 次 处 理 , 即 对 每 一 项 加 权Pr(w|cj)/Pr(w|ci),对两类问题,我们可以用两类密度函数似然比作因子,提高平均可分信息,推广到多类问题,我们可以用某一类的密度函数与各类密度函数的均值进行比较,对于在各类中表现均衡的词,即出现概率相近的词,得到权值的很小,对在各类中出现概率差别较大的词,其权值较大,从而提高了可分性信息。改进后的文本分类判别公式如下:
对(2)中变形的解释:Pr(Cj|x,d)=Pr(Cj,x,d)/Pr(x,d)=Pr(d|Cj,x)*Pr(Cj,x)/(Pr(d|x)*Pr(x))=Pr(d|Cj,x)*Pr(Cj|x)*Pr(x)/(Pr(d|x)*Pr(x)),这样就得出了(2)中的变形。