libsvm中数据归一化的重要性

最新推荐文章于 2022-05-10 10:17:58 发布

liuwei1206

最新推荐文章于 2022-05-10 10:17:58 发布

阅读量1.2w

点赞数 3

分类专栏：数据挖掘与机器学习 Python 文章标签： libsvm归一化问 svm-scale

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jeryjeryjery/article/details/72649320

版权

Python 同时被 2 个专栏收录

28 篇文章 2 订阅

订阅专栏

数据挖掘与机器学习

19 篇文章 0 订阅

订阅专栏

这两天用Python来实现手写数字识别，刚开始用原始数据进行训练，结果预测结果都是同一个类别，全部是对应数字1。正确率也只有10%左右，下面是代码及运行结果截图：
这里写图片描述

预测结果都是数字1。

数据归一化是指将特征值从一个大范围映射到[0,1]或者[-1,1]，如果原始值都是正数，则建议选择映射到[0,1]；如果原始值有正数又有负数，则建议映射到[-1,1]；具体情况需要具体分析。映射到[0,1]的实现是:

n e w_v a l u e = v a l u e - m i n _ v a l u e m a x _ v a l u e - m i n _ v a l u e

$new\_value=\frac{value-min\_value}{max\_value-min\_value}$
这样就能实现从原来的范围映射到[0,1]之间。
libsvm中提供了数据归一化工具，就是svm-scale这个工具。如果你的数据文件已经满足了svm的格式要求，即

label1:value12:value2.... $label \quad1:value_1 \quad2:value_2 \quad....$ 这种格式，那么在window平台下，你可以直接调用libsvm\windows\svm-scale.exe文件来进行归一化操作。具体步骤是在cmd命令行中进入到svm-scale.exe所在文件夹，然后运行svm-scale来实现归一化。svm-scale的语法截图如下：
scale语法

scale语法

其中-l 指定下界，-u指定上界，-s指定保存scale参数文件路径，-r源文件路径

下面以数据源train.txt为例，将其归一化到[0,1]，并存入到train-to-one.txt中，语句截图如下：
这里写图片描述

因为手写数字图片是由一系列的像素点组成的，像素值从0到255，所以可以让每一个像素值除以255，从而实现映射。可以调用svm-scale来实现，也可以直接编写java代码来实现，然后再以归一化之后的数据进行训练模型并预测，其代码和截图如下：
归一化数据

可以看出，准确率和速率明显提高了，不会出现仅仅只有一类的问题。但是其中的原理，本人现在还不知道，等我理解了再解释吧！

关注

3
点赞
踩
24

收藏

觉得还不错? 一键收藏
7
评论
libsvm中数据归一化的重要性

这两天用Python来实现手写数字识别，刚开始用原始数据进行训练，结果预测结果都是同一个类别，全部是对应数字1。正确率也只有10%左右，下面是代码及运行结果截图：预测结果都是数字1。数据归一化是指将特征值从一个大范围映射到[0,1]或者[-1,1]，如果原始值都是正数，则建议选择映射到[0,1]；如果原始值有正数又有负数，则建议映射到[-1,1]；具体情况需要具体分析。映射到[0,1]的实现
复制链接

扫一扫

专栏目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。