基于R对机器学习中两种常用的数据处理方法（标准化和归一化）

最新推荐文章于 2024-04-12 18:19:20 发布

天桥下的卖艺者

最新推荐文章于 2024-04-12 18:19:20 发布

阅读量6.1k

点赞数 8

分类专栏： R语言文章标签：机器学习 r语言人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dege857/article/details/122446039

版权

R语言专栏收录该内容

266 篇文章 798 订阅

订阅专栏

我们在机器学习中常涉及多个维度，有些数据的量级不同，会导致数据范围波动很大，比如我们研究肿瘤的数据，肿瘤周长可以达到10多cm，而肿瘤的凹度只有零点几cm,两者数据间差异比较大，在进行比较的时候通常需要消除数据间的差异。常见的方法为对数据进行标准化和归一化处理。
在这里插入图片描述
标准化就是把数据减去同一列的平均值，然后再除以标准差，公式如下：

归一化就是把数据减去同列数据的最小值，然后再除以同列数据最小值和最大值的差值，公式如下：

我们通过R语言来实现下面两种数据处理方法，先导入我们的一个乳腺癌的肿瘤指标数据（不是原来乳腺癌的数据, 公众号回复：KNN数据，可以获得数据），

bc<-read.csv("E:/r/test/wdbc.csv",sep=',',header=TRUE)

在这里插入图片描述

这是一个关于肿瘤数据，第一列是患者编号，第二列表示肿瘤是否是恶性的（M是恶性，B是良性），其他都是肿瘤的参数，有周长，直径，光滑度，凹凸点等数据，共有32个参数，有些数据很大20.5cm,有些才0.08cm。
我们先把编号和去掉

bc<-bc[-1]

在R中进行数据标准化很简单，直接使用scale命令就可以了

be<-scale(bc[2:31])

在这里插入图片描述
这样标准化就完成了，我们可以看到数据被进行了压缩，数据间的差距变小了，具有可比性。
下面我们继续进行归一化数据处理，归一化没有专门的程序，我们先自己设置一个程序，然后使用lapply函数实现

f1<-function(x){
  return((x-min(x)) / (max(x)-min(x)))
}

然后把数据带入自己设定的函数

be<-as.data.frame(lapply(bc[2:31],f1))

在这里插入图片描述
这样，我们的数据归一化也完成了，目前在机器学习中这两种数据方法使用较多，一般来说正态分布数据使用标准化较多，如果是非正常态分布数据，使用归一化较多。

天桥下的卖艺者

关注

8
点赞
踩
52

收藏

觉得还不错? 一键收藏
打赏
3
评论
基于R对机器学习中两种常用的数据处理方法（标准化和归一化）

我们在机器学习中常涉及多个维度，有些数据的量级不同，会导致数据范围波动很大，比如我们研究肿瘤的数据，肿瘤周长可以达到10多cm，而肿瘤的凹度只有零点几cm,两者数据间差异比较大，在进行比较的时候通常需要消除数据间的差异。常见的方法为对数据进行标准化和归一化处理。标准化就是把数据减去同一列的平均值，然后再除以标准差，公式如下：归一化就是把数据减去同列数据的最小值，然后再除以同列数据最小值和最大值的差值，公式如下：我们通过R语言来实现下面两种数据处理方法，先导入我们的一个乳腺癌的肿瘤指标数据（不是原
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

天桥下的卖艺者 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。