数据标准化与归一化

最新推荐文章于 2024-04-28 22:10:23 发布

芒果冰麦

最新推荐文章于 2024-04-28 22:10:23 发布

阅读量4k

点赞数 11

分类专栏：特征工程文章标签：机器学习人工智能数据分析 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43655841/article/details/105301340

版权

特征归一化、标准化的理解

数据集如果标准化处理，对机器学习中的很多算法（包括梯度下降），会有很好的优化效果。如果数据未标准化（例如，数据集特征之间相差的数量级较大时），很多算法的表现性能不佳。

首先理解方差、标准差和均方根误差的区别

方差(variance)

衡量随机变量或一组数据的离散（偏离）程度

概率论中，方差是用来度量随机变量和其数学期望的（均值）之间的偏离程度。

统计学中，各数据分别与其平均数之差的平方和

假设一组随机变量或统计数据的期望（均值）用 $E (x)$ 表示，则其方差表示为各数据与 $E (x)$ 差的平方和 $\sum[x-E(x)]^2$ ,然后再求其期望（均值）得 $D(x)=\sum[x-E(x)]^2$

为什么要使用标准差

根据上文我们知道方差是用来衡量随机变量或一组数据的离散（偏离）程度，标准差(也叫均方差)的公式为 $\sigma = \sqrt {D(x)}$ ,方差和标准差有一个共有的性质：值越大分布曲线越扁也就是越分散。
由于数据是随机的，假设其同分布根据中心极限定理，该数据服从高斯（正太）分布（典型的例子就是误差），我们看下分布面积情况。
在这里插入图片描述
在使用标准差的时候我们可以清楚的看到数据属于某个值的概率。(我们处理特征的时候可以以此为依据筛选掉outlier)

横轴区间

最低0.47元/天解锁文章

关注

11
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
数据标准化与归一化

特征归一化、标准化的理解数据集如果标准化处理，对机器学习中的很多算法（包括梯度下降），会有很好的优化效果。如果数据未标准化（例如，数据集特征之间相差的数量级较大时），很多算法的表现性能不佳。首先理解方差、标准差和均方根误差的区别方差(variance)衡量随机变量或一组数据的离散（偏离）程度概率论中，方差是用来度量随机变量和其数学期望的（均值）之间的偏离程度。统计学中，各数据分别...
复制链接

扫一扫

专栏目录

芒果冰麦 CSDN认证博客专家 CSDN认证企业博客

码龄6年

12: 原创

11万+: 周排名

186万+: 总排名

2万+: 访问

: 等级

412: 积分

17: 粉丝

37: 获赞

7: 评论

311: 收藏

私信

关注

热门文章

分类专栏

最新评论

完整的机器学习_加州房价预测
weixin_48555971: 想知道数据集是哪里得到的
stacking模型融合
suaspire: 请问下楼主，在stacking算法分类的情况下，直接将预测结果中的一列当做二层输入这样写有什么依据吗？[code=python] y_submission = clf.predict_proba(X_test)[:, 1] dataset_blend_train[test, j] = y_submission dataset_blend_test_j[:, i] = clf.predict_proba(X_predict)[:, 1] [/code]
stacking模型融合
123scales: 没有呢
stacking模型融合
芒果冰麦回复 123scales: 数据源是不是有空值？
stacking模型融合
123scales: 博主你好！我在运行【分类的Stacking\Blending融合】这部分代码时一直报错，麻烦您看一下好嘛？谢谢您 [code=python] --------------------------------------------------------------------------- KeyError Traceback (most recent call last) <ipython-input-12-afe3279963f1> in <module> 5 for train,test in skf.split(X,y): 6 #5-Fold交叉训练，使用第i个部分作为预测，剩余的部分来训练模型，获得其预测的输出作为第i部分的新特征。 ----> 7 X_train, y_train, X_test, y_test = X[train], y[train], X[test], y[test] 8 clf.fit(X_train, y_train) 9 y_submission = clf.predict_proba(X_test)[:, 1] KeyError: 'Passing list-likes to .loc or [] with any missing labels is no longer supported, see https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#deprecate-loc-reindex-listlike' [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。