大数据分析多元统计基础,数据预处理

大数据竞赛平台

  • kaggle:
  • 阿里天池:
  • 腾讯广告算法

多元统计分析基础

统计学习时机器学习的基础,可解释性和理论支撑性强

什么是多元统计分析

  • 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律性的理论和统计方法的总称。
  • 研究的对象多维随机向量
  • 研究内容既包括一元统计学中某些方法的直接推广,也包括多个随机变量特有的一些问题。

多元统计分析的对象和内容

对象:

多元分析以p个变量的n次观测数据矩阵为依据,具体形式如下:

                                          X = \begin{bmatrix} X_{11} & X_{12} & \ldots & X_{1p} \\ X_{21} & X_{22} & \ldots & X_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ X_{n1} & X_{n2} & \ldots & X_{np} \end{bmatrix}

  • 根据实际问题的需要,给出种种方法。
  • 英国著名统计学家M.肯德尔(M.G.Kendall)在《多元分析》一书中把多元分析所研究的内容和方法概括为以下几个方面。

内容:

1.简化数据结构(降维问题)

就是浓缩有效星系,去掉冗余信息

只关注影响最大的特征维度,放弃掉影响力不足的特征维度。通过对比前后两个椭圆,可以想到,信息浓缩的有效性受数据本身不同维度的相关性强弱的影响

信息浓缩的有效性受数据本身不同维度的相关性强弱影响

如上图椭圆所示,波动的主要信息在长轴方向上,我们可以用什么统计量表征这种信息的波动呢?

在概率论与数理统计上,这种波动对应了方差信息用波动来表示,而波动往往用方差来表示。

  • 通过变量交换等方法使相互依赖的变量变成互不相关的。(注意:如果变量之间没有有效相关性,就没有办法实现有效降维)
  • 或者把高维空间的数据投影到低维空间,使问题得到简化而损失的信息又不太多。

降维问题主要有:

  1. 主成分分析
  2. 因子分析
  3. 对应分析
2.分类与判别
  • 对所考察的对象(样本或变量)按相似程度进行分类(或归类)。组内相关性越大,组间差距越大,聚类效果越好

  归类问题主要有:

  1. 聚类分析
  2. 判别分析
3.变量间的相互联系
  • 相互依赖关系:分析一人或几个变量的变化是否依赖于另一些变量的变化?如果是,建立变量间的定量关系式,并用于预测或控制。

  1. 预测或控制--回归分析

  2. 两组变量间的相互关系--典型相关分析

  3. 组变量依赖另一组变量的变化关系--偏最小二乘回归分析

4、多元数据的统计推断


  参数估计和假设检验问题,特别是多元正态分布的均值向量和协差阵的估计和假设检验等问题。

5、多元统计分析的理论基础


         包括多维随机向量及多维正态随机向量,及由此定义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论。
这些不仅是统计估计和假设检验的基础,也是多元统计分析的理论基础


数据清洗

(一)什么是数据清洗

(二)缺失值处理

这些方法各有优势和适用场景,选择哪种方法取决于数据的特性和分析的需求。

(三)异常值分析

在建模分析的时候,如果不把异常值排除是非常危险的,很可能模型会收到异常值的影响。

异常值也指样本中的离群点,它的数值明显偏离了其他样本,我们也可以称之为离群值检测

接下我们就一一介绍异常值检验的3中方法。

1.简单统计量分析

最常用的方法就是观察某个变量的最大值和最小值,分析一下是否合理。

2.3德尔塔准则

正态分布有两个参数,均值和方差,均值就是这个样本的中心,方差决定了这个正态分布函数的胖瘦。一般在远离中心3德尔塔之外的概率小于0.3%。

如果数据不服从正态分布,也可以自己定义一下原理均值的多少倍标准差就当作异常值

3.箱型图分析

利用箱型图分析的第一步就是找出数据的上四分位数和下四分位数

箱型图具有比较好的鲁棒性,在3德尔塔准则中需要计算均值和标准差,但是我们算这些值的时候就已经收到异常值的影响力,比如又有一个样本都非常大,则基于所有样本算出来的均值和标准差本身就有问题。而箱型图就可以克服这个缺点。

(四)数据的一致性分析

比如有人说自己天天上班开车却没有汽车。

有人给食堂的打分很高却很少去食堂吃饭。

(五)总结

          在对数据一无所知的情况下, 直接将神经网络,随机森林等机器学习模型往数据上套用,这明显不太好。

        数据是分析的对象和基础,了解数据特性,选择合适的方法


数据预处理的数据转换方法

我们拿到原始数据的时候是不能直接使用,大概场景如下:
1.数字比较大,容易爆计算量,更不容易收敛

2.所分析的变量并不服从正态分布,有时候不利于我们做一些和正态分布有关系的线性模型分析。

在经过数据清洗后的数据还要经过数据变换的处理才能更加适合后面的数据处理工作。

(一)数据变换简介

我们可以通过上面的图直观感受一下数据变换的效果

红色的数据分布为数据变换前的原始数据,绿色的数据分布通过将原始的数据平移处理,使处理后的数据分布以原点为分布中心,蓝色的数据进一步进行了标准化处理使得沿x轴和沿y轴尺度相同。

不同的数据变换能够使得变换后的数据突出不同的特点。下面将简单介绍一些常见的数据变换方法。

(二)简单函数变换

对于时间序列分析,简单的对数变换差分运算可以将非平稳序列处理为平稳序列再进行分析。

对于取值范围很宽泛的分布可以通过对数变换进行压缩以方便处理。

(三)数据归一化

比如说大家的年龄,体重,身高,健康的量纲都不同,如果要一起考虑影响的化就要消除量纲。

数据归一化对于基于距离的数据挖掘算法而言尤其重要,因为距离的衡量涉及到各个维度的尺度。而归一化能够统一不同维度尺度的大小。

第二种归一化方法更好。

(四)连续数据离散化

连续数据离散化是将连续的数值数据转换为离散的类别数据的过程。这种转换在某些统计分析和机器学习算法中非常有用,因为有些算法可能更适合处理离散数据或需要离散数据来提高性能。

  1. 等宽离散化将数据范围分为几个等宽的区间。例如,如果数据范围是0到100,可以将其分为10个区间,每个区间宽度为10。

  2. 等频离散化将数据分为几个具有相同数据点数量的区间。这种方法确保每个区间包含大致相同数量的数据点。需要人为确定划分区间的个数

  3. 基于分位数的离散化:使用数据的分位数来确定区间边界,如四分位数、十分位数等。这种方法可以更好地反映数据的分布特性。

  4. 聚类离散化:使用聚类算法(如K-means)将数据点分组,然后将每个聚类中心作为该组的代表值。也需要人为确定划分区间的个数

(五)属性构造

(六)总结

数据变换是数据分析和预处理中的一个重要步骤,它涉及对原始数据进行数学操作以改善数据的分布特性、减少噪声、增强模型性能或满足某些算法的假设条件。

  • 32
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值