随着oec项目4版本的开发,学习svm算法也有段时间了,对于其理解做些总结。
首先svm是有监督的分类回归算法,对于自动识别分类效果比较好,具体流程如下:
1.对语料每个分类打标签,并对每个分类下面的txt文本进行分词。分词器有好多种,自己可以选择适合自己的,我用过mmseg4j,ansj和中科院三种分词器,其中ansj对词的标注和自动学习词性方面最好。
2.去停用词。
3.根据你想用的提取特征向量的算法来做不同的操作。
如果用卡方来做向量提取,要计算着个词在本类出现次数,在其他类出现次数,在本类不在其他类出现次数等
如果用tfidf来做向量提取,要计算词频,词在本类出现的次数,反词频,词在其他类出现的次数等
4.生成模型
5.测试预料进入,分词,统计词频,去停用词
6.按不同算法计算相似度