机器学习5数据归一化Feature Scaling

最新推荐文章于 2024-11-08 23:36:48 发布

淅淅同学

最新推荐文章于 2024-11-08 23:36:48 发布

阅读量422

点赞数

分类专栏：机器学习文章标签：人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57297999/article/details/128140001

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

文章目录

一、为什么要数据归一化？
二、解决方案
三、最值归一化处理normalization
四、均值方差归一化Standardization

一、为什么要数据归一化？

如图两个样本之间的距离，如果使用欧拉距离的话就是1-5的平法加上200-100的平方再开根号，在这种情况下显然就发现这个距离的大小被发现的时间所主导了；
由于量纲不同导致了最终的距离其实主要衡量的是个发现的时间（起主导作用），因为肿瘤大小之间的差值太小了；
可是我们也很容易发现，如果把时间调整为单位为年的话0.55年和0.27年，此时样本之间的距离又一下子被肿瘤的大小所主导；
很显然我们就发现，如果不进行一些数据的基本处理的话直接进行距离的运算结果很有可能有偏差不能反映准确的结果，因此我们需要对数据进行归一化的处理；
在这里插入图片描述

二、解决方案

数据归一化，解决方案1：

将所有的数据映射到同一尺度；

最值归一化normalization：

把所有的数据映射到0-1之间；这种做法适用于分布有明显的边界，受outlier影响较大；
在这里插入图片描述

解决方案2：

均值方差归一化standardization;

把所有的数据归一到均值为0方差均为1的分布中；
这种做法适用于数据分布没有边界；有可能存在极端数据值的情况；
在这里插入图片描述

三、最值归一化处理normalization

在这里插入图片描述

四、均值方差归一化Standardization

在这里插入图片描述

淅淅同学 CSDN认证博客专家 CSDN认证企业博客

码龄4年

121: 原创

6万+: 周排名

8万+: 总排名

7万+: 访问

: 等级

1664: 积分

362: 粉丝

439: 获赞

4: 评论

393: 收藏

私信

关注

热门文章

分类专栏

手撕之剑指offer 28篇
python基础 44篇
wordpress 7篇
机器学习 17篇
unity 1篇
c# 2篇
数值分析 3篇
矩阵论 1篇
java 14篇
BIM 4篇

最新评论

wordpress全站开发指南-面向开发者及深度用户（全中文实操）--php数组与基本循环
普通网友: 写的很好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
wordpress全站开发指南-面向开发者及深度用户（全中文实操）--wordpress中的著名循环
普通网友: 优质好文！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
wordpress全站开发指南-面向开发者及深度用户（全中文实操）--初尝php
普通网友: 写的真好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
如何采用conda配置python虚拟环境
淅淅同学: conda不行可以改pip下载
Revit Architecture基础概述学习记录
必达Bedar07: 为企业及个人提供专业的建模服务，各类专业均可建。如您有学习要求，建模人员可边建模边讲解，将整个过程视频录下，确保您能完全掌握建模技术。本公司为专业BIM团队，曾做过多个国家级项目，专业技能过硬。同时，本团队常年与机电学院、建筑学院合作教学，教学经验丰富。感兴趣请私信

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

淅淅同学 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。