libSVM使用教程总结

最新推荐文章于 2022-04-21 11:45:04 发布

jacksunsong

最新推荐文章于 2022-04-21 11:45:04 发布

阅读量1.6k

点赞数

文章标签：数据挖掘 svm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jacksunsong/article/details/48051853

版权

本文介绍了使用libSVM进行文本分类的过程，包括文本预处理、参数选择和训练。在预处理阶段，使用了分词、特征选取（Chi-square test）和TF/IDF计算特征权重。通过libSVM的Python工具包进行参数c和gamma的选择，借助gnuplot绘制图形确定最佳参数。最后，选择了线性核函数进行训练，得到了训练模型。

摘要由CSDN通过智能技术生成

最近在利用SVM来进行文本分类，做的是二分类。业务场景是这样的，根据一段客服对话来判断对话的投诉倾向性，由于之前有小伙伴建议使用SVM来分类，（我接触数据挖掘时间不长，之前利用朴素贝叶斯做过分类问题）。小伙伴给我的理由是SVM永远比朴素贝叶斯好，原因是其可以调参数，，我后来觉得也未必是这样，先按照这个方法来吧，要不然也不会写这篇博客了。

首先下载libsvm工具包【1】

一、文本预处理工作

1.对文本做分词、过滤、词性过滤，关于词性过滤我们假设对分类效果起主要影响的都是一些有实际意义的词语，如名词、形容词、动词，这里过滤掉一些如数词、副词等，一个更简单的方法是去除停用词，本人为了减少对比的工作把两者方法都用了（偷懒哦）。由于楼主对Java比较熟，所以使用了ansj作为分词工具【2】,在分词的时候需要注意把用户自定义词提前加入分词词库中，这里我把客服对话中的高危词加到了词库中。

2.做特征选取，这里我们利用Chi-square test【3】来提取，关于Chi-square test为了偷懒我也不详细介绍了。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄13年

1
原创

0
点赞

1
收藏

0
粉丝

关注

私信

热门文章

libSVM使用教程总结 1653

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。