libSVM使用教程总结

本文介绍了使用libSVM进行文本分类的过程,包括文本预处理、参数选择和训练。在预处理阶段,使用了分词、特征选取(Chi-square test)和TF/IDF计算特征权重。通过libSVM的Python工具包进行参数c和gamma的选择,借助gnuplot绘制图形确定最佳参数。最后,选择了线性核函数进行训练,得到了训练模型。
摘要由CSDN通过智能技术生成

        最近在利用SVM来进行文本分类,做的是二分类。业务场景是这样的,根据一段客服对话来判断对话的投诉倾向性,由于之前有小伙伴建议使用SVM来分类,(我接触数据挖掘时间不长,之前利用朴素贝叶斯做过分类问题)。小伙伴给我的理由是SVM永远比朴素贝叶斯好,原因是其可以调参数,尴尬,我后来觉得也未必是这样,先按照这个方法来吧,要不然也不会写这篇博客了大笑

        首先下载libsvm工具包【1】

      一、文本预处理工作

        1.对文本做分词、过滤、词性过滤,关于词性过滤我们假设对分类效果起主要影响的都是一些有实际意义的词语,如名词、形容词、动词,这里过滤掉一些如数词、副词等,一个更简单的方法是去除停用词,本人为了减少对比的工作把两者方法都用了(偷懒哦)。由于楼主对Java比较熟,所以使用了ansj作为分词工具【2】,在分词的时候需要注意把用户自定义词提前加入分词词库中,这里我把客服对话中的高危词加到了词库中。

        2.做特征选取,这里我们利用Chi-square test【3】来提取,关于Chi-square test为了偷懒我也不详细介绍了偷笑

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值