那些年,我们一起踩过的统计分析的坑

数据预处理

暂待更新

数据去噪

暂待更新

假设检验

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。

举个例子:
在一个集合里,我需要抽样一部分,得到样本。我对样本进行一系列的参数(均值,方差等)的求解。
但是,我如何判定,我通过样本得到的参数,可以反应整个集合数据的参数呢?
或者,就是说:样本参数与整体数据参数之间,有什么关系?
这就是,我们假设检验想干的事情。

备择假设检验

一个有趣的例子:假设我得到的参数是正确的,然后,对整体数据集合通过一系列的验证或计算,得到分布概率,有小概率事件和大概率事件,分布概率在0.05之下的,小概率事件,假设不成立。
分布概率在0.05之上的,假设成立。
假设检验的种类包括:t检验,Z检验,卡方检验,F检验等等。
这些都是不同的分布情况,对应不同的分布概率。

误差分析

在上面的假设检验的基础上,我们可以联想,我们的计算的误差。
换句话说,误差分析就是分析:我们样本参数对整体参数的误差

总结

假设检验就是,我们在一个大数据集合内抽样出一些小数据集合(样本)。然后,计算样本的参数,假设我们的样本参数就是大集合的参数,进行一系列的计算,反证是否假设成立。

相关分析

简单的说,相关分析,就是分析自变量与因变量之间的相关性的过程。正相关,负相关,不相关。

回归分析

回归分析就是在相关分析的基础上,定量的进行分析自变量与因变量之间的关系

一元回归分析

一元回归分析,很简单的说,就是一个自变量与一个因变量之间的数量关系。

多元回归分析

多元回归分析,类比一元微分学与多元微分学之间的关系,可以看成:多个自变量与?一个?因变量之间的数量关系。

Logit回归分析

Logit回归,又名逻辑回归。逻辑,0和1之间的相爱相杀。
所以,逻辑回归,也是在因变量为二元结果(真或假)条件下的回归。
同时,幂律分布又和逻辑回归有着千丝万缕的联系

聚类分析

其实,聚类分析,也是一种特殊的回归方式,不同于使用回归曲线进行逼近。
聚类分析另辟蹊径,在分类的基础上,将数据以聚成类的形式进行回归分析。
这里说一下,

聚类和分类的关系

分类,首先,你要有分类的标准和分的类的数量。
但是,聚类不太一样。聚类,是全靠缘分。没错,我们通过定义聚类的标准(使用什么距离进行聚类:欧式距离,闵科夫斯基距离,切比雪夫距离等等)然后,经过不断的聚类,直至不在变化,聚类完成。所以说,聚类,缘分很重要
具体的过程,待定更新

主成分分析

简单点,假设我有4个指标(自变量维数)分别为X1,X2,X3,X4.
然后,主成分分析就是通过正交变换,把X1,X2,X3,X4换到Y1,Y2,Y3,Y4.
同时,有
在这里插入图片描述
然后,看Y1,Y2,Y3,Y4的特征值是否大于1,大于1,代表数据信息浓缩,小于1代表数据信息膨胀。等于1,代表数据信息未变化。
直接去特征值大于1的Yi,i=1,2,3,4,构成新的自变量指标。

因子分析

因子分析,与主成分分析的不同在于,因子分析里面的因子旋转,相当于,我在进行了一步忽略。
这里的忽略是指:若正交矩阵(我上面敲的那个矩阵乘法中间的那个最大的矩阵)里的成分,若小于某个数值,我们可以近似为0,进一步降低了数据的复杂程度(同时又损耗了一部分数据信息)。
然后,我们需要对我们因子旋转之后得到的新的自变量,解释一下它可能代表的含义。

时间序列分析

这个,时间序列,顾名思义,把时间作为自变量。一般都是一元回归的变形(一对一)。

差分

这里简单介绍一下什么是差分。
差分,来源于微分d,把微分d的 Δ \Delta ΔX 变大一下,就从微分变成了差分,很神奇。
差分在时间序列里到底干了什么呢?

AR时间序列

暂代更新

MA时间序列

暂代更新

ARLMA时间序列

暂代更新

PS:一些链接
常用的数据统计方法与工具
https://zhuanlan.zhihu.com/p/31827583
常用的数据统计方法与工具
https://zhuanlan.zhihu.com/p/39124255
【合集】75篇SPSS统计操作教程,全在这里!

数据分析的30种坑法
https://zhuanlan.zhihu.com/p/54593464
数据分析的30种死法

区分数据分析与数据挖掘,前者偏向于业务分析,后者偏向于数据库算法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值