libsvm java 实例_LibSvm流程及java代码测试

最新推荐文章于 2022-05-27 21:02:35 发布

weixin_39650994

最新推荐文章于 2022-05-27 21:02:35 发布

阅读量255

点赞数

文章标签： libsvm java 实例

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39650994/article/details/114094795

版权

使用libSvm实现文本分类的基本过程，此文参考使用libsvm实现文本分类对前期数据准备及后续的分类测试进行了验证，同时对文中作者的分词组件修改成hanLP分词，对数字进行过滤，仅保留长度大于1的词进行处理。

转上文作者写的分类流程：

选择文本训练数据集和测试数据集：训练集和测试集都是类标签已知的；

训练集文本预处理：这里主要包括分词、去停用词、建立词袋模型(倒排表)；

选择文本分类使用的特征向量(词向量)：最终的目标是使得最终选出的特征向量在多个类别之间具有一定的类别区分度，可以使用相关有效的技术去实现特征向量的选择，由于分词后得到大量的词，通过选择降维技术能很好地减少计算量，还能维持分类的精度；

输出libsvm支持的量化的训练样本集文件：类别名称、特征向量中每个词元素分别到数字编号的映射转换，以及基于类别和特征向量来量化文本训练集，能够满足使用libsvm训练所需要的数据格式；

测试数据集预处理：同样包括分词(需要和训练过程中使用的分词器一致)、去停用词、建立词袋模型(倒排表)，但是这时需要加载训练过程中生成的特征向量，用特征向量去排除多余的不在特征向量中的词(也称为降维)；

输出libsvm支持的量化的测试样本集文件：格式和训练数据集的预处理阶段的输出相同；

使用libsvm训练文本分类器：使用训练集预处理阶段输出的量化的数据集文件，这个阶段也需要做很多工作(后面会详细说明)，最终输出分类模型文件；

使用libsvm验证分类模型的精度：使用测试集预处理阶段输出的量化的数据集文件，和分类模型文件来验证分类的精度；

分类模型参数寻优：如果经过libsvm训练出来的分类模型精度很差，可以通过libsvm自带的交叉验证(Cross Validation)功能来实现参数的寻优，通过搜索参数取值空间来获取最佳的参数值，使分类模型的精度满足实际分类需要。

文本预处理阶段，增加了基于hanLP的分词，代码如下：

最低0.47元/天解锁文章

weixin_39650994

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
libsvm java 实例_LibSvm流程及java代码测试

使用libSvm实现文本分类的基本过程，此文参考使用libsvm实现文本分类对前期数据准备及后续的分类测试进行了验证，同时对文中作者的分词组件修改成hanLP分词，对数字进行过滤，仅保留长度大于1的词进行处理。转上文作者写的分类流程：选择文本训练数据集和测试数据集：训练集和测试集都是类标签已知的；训练集文本预处理：这里主要包括分词、去停用词、建立词袋模型(倒排表)；选择文本分类使用的特征向量(...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。