大数据分析与数据挖掘-3

目录

数据集成与变换

简单变换

简单变换的作用:

box-cox变换​

时间非平稳序列-时间平稳序列(一阶差分)

数据规范化

数据白化

连续属性离散化

属性构造

算法的学习方法

主成分分析

数值规约


数据集成与变换

简单变换

对原始数据进行数学函数变换,如:平方、开方、取对数、差分运算等

简单变换的作用:

数据范围的拉伸与压缩(图像对比度提升、年收入)

非正态-正态分布(开发,取对数,

box-cox变换

它包括了平方变换(在这里插入图片描述
),平方根变换(在这里插入图片描述
),对数变换(在这里插入图片描述

)和倒数变换(在这里插入图片描述
)等常用变换。所以Box-Cox变换是一族变换。Box-Cox变换中参数的估计有两种方法:(1)最大似然估计;(2)Bayes方法。通过求解值,就可以确定具体采用哪种变换形式。关于求解值的详细公式推导,大家可以自行查阅相关资料。

 

用于连续的响应变量不满足正态分布的情况。比如在使用线性回归的时候,由于残差 \epsilon 不符合正态分布而不满足建模的条件,这时候要对响应变量Y进行变换,把数据变成正态的。)

时间非平稳序列-时间平稳序列(一阶差分)

        分析到白噪声就不用分析了。

数据规范化

    1、最大——最小规范化 :X *=(x-min)/(max-min)

      映射到 [0,1] 之间,若数据集中且某个数值太大,则规范化后各值都接近0,且相差不大

    2、零——均值规范化(Z-score标准化):X*=(x-mean)/ sigma

      目前用的最多的数据标准化方法

    3、小数定标规范化:X*=x /(10^k)

      通过移动属性值的小数位数,映射到 [-1,1] 之间,移动的小数位数取决于属性值绝对值的最大值

数据白化

PAC白化

连续属性离散化

    一些数据挖掘算法要求数据是分类属性形式,就需要将连续属性转变为分类属性

    1、等宽法:类似于制作频率分布表,将属性的值域划分为相等宽度的区间,区间的个数由数据本身特点决定

    2、等频法:将相同数量的记录放到每个区间

    3、聚类:一维聚类的两个步骤,首先用聚类算法如(K-means算法)进行聚类,然后处理聚类得到的簇。

属性构造

二级指标,体重指数(BMI)=体重/身高的平方,(线损率=供入电量-供出电量)/供入电量

算法的学习方法

1.思想

2.过程步骤(弱)

3.适用场景

主成分分析

原始数据相关性较高,寻找较少的新变量来代替原先众多的变量。新变量(坐标系、基底)要求:尽可能地代表原先变量的信息,且彼此互不相关。

step1.原始数据变量m行n列矩阵(m个样本,每个样本n个变量)。

step2.协方差矩阵,协方差反映相关性。cov(x1,x1),cov(x1,x2),...

step3.协方差矩阵对角化,求解特征值\lambda

step4.求解特征向量并单位化

step5.确定主成分个数,计算各主成分贡献率

贡献率,累积贡献率,一般规则:\lambda \geq 1,或累积贡献率<85%

新的基底

step6.确定数据在新坐标系下的线性组合

数值规约

抽样,随机抽样,分层抽样,加权抽样

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cole~~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值