数据标准化

1 为何需要标准化

有的数据,不同维度的数量级差别较大,导致有的维度会主导整个分析过程。如下图所示:

该图的数据维度 d = 30 d=30 d=30,样本量 n = 40 n=40 n=40,上面的图是对原始数据做PCA后,第一个PC在各个维度上的权重的平行坐标图,下面的图则是对数据做标准化之后的情况。可以发现,在原始数据中,第 4 4 4 24 24 24个维度的权重非常大。如果其他的维度也包含了重要的信息,而我们只取第一个PC做研究,可能就会造成信息损失。

2 如何标准化

那该如何预处理数据?一般而言有两种处理方法。

2.1 Scale

常见的一种方法就是对数据做scale,如我们知道数据的总体为 x ∼ ( μ , Σ ) x\sim (\mu,\Sigma) x(μ,Σ),那么可以将 Σ \Sigma Σ的对角线元素单独取出做成一个对角矩阵 Σ diag \Sigma_\text{diag} Σdiag,然后定义
x scale = Σ diag − 1 / 2 ( x − μ ) x_\text{scale}=\Sigma_\text{diag}^{-1/2}(x-\mu) xscale=Σdiag1/2(xμ)

这样做的好处显而易见,在做完scale后,我们有
Var (

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值