数据预处理：静态连续变量

最新推荐文章于 2022-03-24 13:59:02 发布

latency_

最新推荐文章于 2022-03-24 13:59:02 发布

阅读量248

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39802199/article/details/116658967

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

数据预处理：静态连续变量

第一步，离散化连续变量使模型更加稳健。然后将数值特征二值化，进一步将数值特征进行分箱，包括均匀分箱和和分数位分箱两种方法。

第二部，缩放。不同尺度的特征之间难以比较，特别是在线性回归和逻辑回归等线性模型中，在基于欧氏距离的k-means聚类或者KNN模型中，就需要进行特征缩放，否则距离的测量是无用的，而对于任何使用梯度下降的算法，缩放也会加快收敛速度。

标准缩放

方法1：标准缩放，Z分数标准化，对异常值敏感，因为异常值会同时影响到均值和标准差。公式：
在这里插入图片描述

MinMaxScaler

方法2：MinMaxScaler，按数值范围缩放，对异常值敏感，假设缩放的特征数值范围是(a, b)，公式：
在这里插入图片描述

RobustScaler

方法3：RobustScaler，抗异常值缩放，分位数缩放，使用对异常值稳健的统计（分位数）来缩放特征，对异常点的鲁棒性更强，假设缩放的特征分位数范围是（a, b），公式：
在这里插入图片描述
方法1，2，3都保持原来的分布，但正态性是许多统计模型的一个重要假设，可以使用幂次变换将原始分布转换为正态分布。

幂次变换

方法4：幂次变换（非线性变换）
Box-Cox变换：只适用于正数，并假设如下分布：
在这里插入图片描述
考虑所有的λ值，通过最大似然估计选择稳定方差和最小化偏度的最优值。
Yeo-Johnson变换：适用于正数和负数，并假设以下分布：

考虑所有的λ值，通过最大似然估计选择稳定方差和最小化偏度的最优值。

方法1，2，3，4都是按列进行操作的，每列表示所有样本的同一个特征属性的取值。

正则化

方法5：正则化，正则化在每一行都有效，它试图“缩放”每一个样本，使其具有单位范数，但是，由于正则化在每一行都起作用，它会扭曲特征之间的关系，因此不常见。但是正则化方法在文本分类和聚类上下文中非常有用。
假设X[i][j]表示样本i中特征j的值，
L1正则化公式：
在这里插入图片描述
L2正则化公式：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据预处理：静态连续变量

数据预处理：静态连续变量第一步，离散化连续变量使模型更加稳健。然后将数值特征二值化，进一步将数值特征进行分箱，包括均匀分箱和和分数位分箱两种方法。第二部，缩放。不同尺度的特征之间难以比较，特别是在线性回归和逻辑回归等线性模型中，在基于欧氏距离的k-means聚类或者KNN模型中，就需要进行特征缩放，否则距离的测量是无用的，而对于任何使用梯度下降的算法，缩放也会加快收敛速度。标准缩放方法1：标准缩放，Z分数标准化，对异常值敏感，因为异常值会同时影响到均值和标准差。公式：MinMaxScaler方
复制链接

扫一扫

专栏目录

latency_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

23: 原创

76万+: 周排名

216万+: 总排名

3万+: 访问

: 等级

336: 积分

9: 粉丝

16: 获赞

4: 评论

110: 收藏

私信

关注

热门文章

分类专栏

最新评论

自监督学习-MoCo-论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：Doamin Adaptation——JGSA
Tsinghua_renyi: 大佬是研究DA的吗
自监督学习-MoCo-论文笔记
latency_: 用学生模型做下游任务
自监督学习-MoCo-论文笔记
Benjieming_cui: 请问这里的student model和teacher model（momentum encoder）选哪一个做下游任务呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。