文本分类——libsvm

最新推荐文章于 2021-02-13 04:59:32 发布

北斗之首

最新推荐文章于 2021-02-13 04:59:32 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/dreamzk/article/details/10068231

版权

1 关于libsvm

关于libsvm的介绍以及相关论文网上很多，感兴趣可以找找。

http://www.csie.ntu.edu.tw/~cjlin/libsvm/ 这是libsvm的官网，也有原作者的论文以及各种下载包和一些的简单的数据。

这里主要是针对之前学习过的几种特征筛选算法用libsvm进行比较。

采用搜狗实验室的数据，选择商业类文本1001篇，娱乐类文本1208篇，测试集29904篇。分别采用文档频次，卡方分布，互信息，信息增益来筛选特征——词。对于每个算法分别选出该算法认为最重要的词200个词。然后对各个测试文本进行分词，向量化，训练，测试。

特征值采用词频，归一化方法如下

文本分类——libsvm - zengkui111 - 北斗之首——魁

其中wi表示词wi在当前文档中出现的次数。

从这个结果来看效果还是不错，其中从正确率的角度来看互信息稍微好些。其实这一个效果比我之前在微软实习时候用svm做的分类效果好多了，一个可能的原因可能是这些语料确实非常干净。

TF-IDF簇的计算公式非常多，从最简单的到后续研究人员针对其特点进行优化的。下面选用一套最简单的公式进行计算比较。

在TF作为特征值里直接用的裸TF，即tf(t,d)={词t在文档d中出现的次数}，这里打算对词进行一些平滑处理，如下：

TF（t,d） = 1 + logtf(i,j)

IDF——逆文档频次，计算方法如下：

其中N为所有文档数，df(t)为t在文档集中出现的文档数。为什么IDF，有什么好处？从IDF的计算公式可以看出 df(t) 越大其值越小，这也说明一个词如果在越多文档中出现，那么它的重要性也就越低，反之也是成立的。这是符合我们对一个事物重要性判断的直觉的。

当前的权重计算方法已经确定如下:

文本分类——libsvm - zengkui111 - 北斗之首——魁

归一化方法和前面介绍的一样。

从这两个表格对比来看tfidf提高了分类的准确性，但是召回率下降了。

关注