svm学后理解

随着oec项目4版本的开发,学习svm算法也有段时间了,对于其理解做些总结。

首先svm是有监督的分类回归算法,对于自动识别分类效果比较好,具体流程如下:

1.对语料每个分类打标签,并对每个分类下面的txt文本进行分词。分词器有好多种,自己可以选择适合自己的,我用过mmseg4j,ansj和中科院三种分词器,其中ansj对词的标注和自动学习词性方面最好。

2.去停用词。

3.根据你想用的提取特征向量的算法来做不同的操作。

如果用卡方来做向量提取,要计算着个词在本类出现次数,在其他类出现次数,在本类不在其他类出现次数等

如果用tfidf来做向量提取,要计算词频,词在本类出现的次数,反词频,词在其他类出现的次数等

4.生成模型

5.测试预料进入,分词,统计词频,去停用词

6.按不同算法计算相似度


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值