数据预处理（normalize、scale）

最新推荐文章于 2023-08-29 14:38:02 发布

五道口纳什

最新推荐文章于 2023-08-29 14:38:02 发布

阅读量7.6k

点赞数

分类专栏：机器学习实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lanchunhui/article/details/67634274

版权

机器学习实战专栏收录该内容

31 篇文章

订阅专栏

本文介绍了MATLAB中实现数据归一化的几种方法，包括去除数据集中的平均值、通过截断标准差来限定数据范围及线性映射数据到指定区间等。还提供了神经网络权重初始化的具体实现。

摘要由CSDN通过智能技术生成

matlab 工具函数（三）—— normalize（归一化数据）

注：待处理的数据 $X\in \mathbb R^{d\times N}$ ， $N$ 表示样本的个数， $d$ 则是单个样本的维度；

1. 去均值（remove DC）

X = bsxfun(@minus, X, mean(X));

2. 截断标准差

这里比如截断保留 +/- 3 个标准差，并 scale 至 -1/1

xstd = 3*std(X(:));
X = max(min(xstd, X), -xstd)/xstd;

3. 从一个尺度空间，缩放（线性映射）到另一个尺度空间

现考虑将 $[a, b]$ 缩放（map/transform）到另一个尺度空间 $[c, d]$ ：

x \in [a, b] \Rightarrow x' = (d - c) \cdot x - a b - a + c, x' \in [c, d]

$x\in [a, b] ⇒ x'=(d-c)\cdot \frac{x-a}{b-a}+c,\quad x'\in [c, d]$

其中 $\frac{x-a}{b-a}$ 将原始数据，缩放到 [0, 1] 区间内；

比如将数据从 [-1, 1] 线性映射到 [0.1, 0.9] 区间：

X = (.9-.1)*(X+1)/2+.1;

再比如对神经网络权值矩阵的 xavier-initializer 初始化方式，服从 (-r, r) 上的均匀分布（ $r=\sqrt{\frac{6}{n_{in}+n_{out}}}$ ），matlab 中的 rand() 生成的是 (0, 1) 上的均匀分布，这里如何从 (0, 1) 上的均匀分布，获取任意区间上的均匀分布（ $(-r,r)$ ），

x \sim U [0, 1] \Rightarrow x - 0 1 - 0 (r - (- r)) - r = x \cdot 2 r - r

$x\sim U[0, 1] ⇒ \quad \frac{x-0}{1-0}\left(r-(-r)\right)-r = x\cdot 2r-r$

function theta = initializeParameters(visSize, hidSize):
r = sqrt(6/(visSize+hidSize));
W1 = rand(hidSize, visSize)*2*r-r;
b1 = zeros(hidSize, 1);
theta = [W1(:); b1(:)];
end

五道口纳什 CSDN认证博客专家 CSDN认证企业博客

码龄14年

3595: 原创

1万+: 周排名

124万+: 总排名

1997万+: 访问

: 等级

16万+: 积分

7419: 粉丝

3948: 获赞

1039: 评论

9469: 收藏

私信

关注

热门文章

分类专栏

最新评论

[Math Processing Error] 问题的解决（F5刷新页面与 Ctrl/Shift + F5 刷新页面的区别）
2301_81505543: 还有没有其他方法啊，ctrl+f5不刷新，ctrl+R刷新了，但没有，急死了
音频、视频等文件格式（.ts、.meta）及其认识
Shuuc: meta 文件并不能打开
补码：统一加减运算
做而论道_CS: 虽然，计算机使用的是：二进制数。但是，进行算术计算时，二进制数也是数，与十进制是雷同的。二进制数，也是数，它也是完全正常的数字。并非是什么乱七八糟的：原码反码补码。千万不要听信那些砖家胡讲！就说四位二进制数吧。四位数范围是：0000 ~ 1111。相当于十进制：0 ~ 15。出现进位，即：2^4 = 16。这些数中，既没有小数点，也没有符号位。它们，都是正整数！计算机砖家就给它们编造了一个名称：无符号数。其实，这就是【忽悠】！计算机中有个加法器，其运算规则是：逢二进一。找两个无符号数相加，列竖式如下：　　　0 1 0 1　= 5 　　＋1 1 1 1　= 15 －－－－－－－－－－－进 1、 0 1 0 0　= 16 + 4 = 20 这就是 “无符号数” 的加法：　　5 + 15 = 16 + 4 = 20。计算完全正确！－－－－－－－－－－－－－－－－－但是，如果你忽略了进位呢？（或者说：故意舍弃了进位。）这就少算了 16 ！那么就是：5 + 15－16 = 5－1 = 4。此时的＋15，就相当于－1 了！为什么是－1 ？因为你：舍弃了进位，少算了 16。所以有：＋15－16 = －1。加法的竖式，依然如下：　　　0 1 0 1　= 5 　　＋1 1 1 1　= 15 （=－1）－－－－－－－－－－－略掉、0 1 0 0　= 4 但是，此时，这可就是【减法运算】了。你看吧，本来是两个 “无符号数” 相加，丢了进位，就变成了 “有符号数” 相减！由此可知，所谓的 “有符号数、无符号数、符号位”，就是瞎掰！二进制数，也就是普通的数字！只是因为： “弄丢了进位”，才会出来 “负数” 和 “减法”。
matplotlib tricks（关闭坐标刻度、坐标轴不可见）
qq_37404964: set_xticklabels([])是可以的
matplotlib tricks（关闭坐标刻度、坐标轴不可见）
qq_37404964: ax.set_xticks([])会报错啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

五道口纳什 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。