方差分析 / 主成分分析 / 因子分析 / 聚类分析

一.方差分析

水平:因素的不同状态,分组是按照因素的不同水平划分的

因变量:在分组试验中,对试验对象所观测记录的变量,它是受各因素影响的变量

常见的方差分析类型:单因素方差分析,多因素方差分析

单因素方差分析:是指检验由单一因素影响一个因变量的组间差异是否显著

多因素方差分析:对一个响应变量是否受多个因素影响进行分析,常用的是双因素方差分析

方差分析的基本思路就是判断样本均值的变异是由于因素的不同水平造成的,还是纯粹由于随机因素造成的

总变差:总体数据的离差平方和,包括组间离差平方和以及组内离差平方和

组间离差平方和:反映的是组间之间的差异程度

组内离差平方和:反映的是组内变量之间的差异程度

我们知道,所有样本数据的离差肯定和样本个数有关,所以为了消除样本个数对离差平方和的影响,需要将其除以个数进行平均,这就是均方。具体的计算方法就是用离差平方和除以相应的自由度

组间方差受因素A和随机因素影响

组内方差只受随机因素影响

自由度:是指样本中独立或者能自由变化的自变量的个数

在估计总体的平均数时,由于样本中的N个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以自由度为N

但在估计总体方差时,使用的是离差平方和

在估计总体方差前,均值就已经确定了,如果知道了其中N-1个数的离差平方和,第N个数的离差平方和也就确定了

这里,均值就相当于一个限制条件,由于加了这个限制条件,所以总体方差的自由度为N-1

组间方差就是用组间离差平方和除以自由度,这里的自由度是R-1,其中R是因素水平个数,也就是总体数据分成了多少组。因为确定了R-1个组之后,第R个组就确定了,所以这里的自由度就是R-1

组内方差就是利用组内离差平方和除以自由度N-R。因为组内方差求的是组内的差异,每个组内数据不需要和自身计算离差,一共R个组,所以自由度就是用总体数据N减去R

了解了数据间的组内差异和组间差异之后,我们需要借助一个统计量来检验因素对结果的显著影响,我们用组间差异除以组内差异来表示,也就是检验统计量F

双因素方差分析有两种类型:无交互作用的双因素方差分析和有交互作用的双因素方差分析

无交互作用的双因素方差分析:它假定因素A和因素B的效应之间是相互独立的,不存在相互关系

有交互作用的双因素方差分析:它假定因素A和因素B的结合会产生出一种新的效应

二.主成分分析

主成分分析和因子分析都是多元分析中的一种降维的统计方法,在我们的日常应用中很常见,而且应用也非常广泛

这种方法的原理就是可以有效地找出数据中最主要的元素和结构,去除噪音和冗余,揭示隐藏在复杂数据背后的简单结构

过度拟合的模型实际上包含了错误的信息,预测能力很差

因为模型和软件,会把噪音当成了信息进行拟合,使得拟合优度超过了理论的最优拟合度

将多个变量浓缩成少量变量,就涉及到主成分分析

作用:减少特征数;减少噪音和冗余;减少过度拟合的可能性

如果用多个指标分析一个问题的时候,由于某些指标反映的是问题的同一方面,这样如果把全部指标都同等地纳入模型,就会导致结果失真

在几何图形上,主成分分析是如何实现降维的呢?

首先看三维数据是如何转化成二维数据

三维立体空间内的任意一点都可以用(x1,x2,x3)来表示,我们将这些点映射到二维平面上,这个平面就是(x1,x2)组成的平面

同样的,一组二维数据也可以转化成一维数据

比如说,下面左边这个图是一个平面空间的二维表,平面上每个点都可以用坐标(x1,x2)来表示,我们按照逆时针旋转坐标系,旋转一定的角度之后得到右边这张图

在旋转过程中,尽量使这些点在一个方向上,只保留一个坐标轴,使纵向的坐标轴的数据尽可能都为0,这样我们就可以将一组二维数据转化成一组一维数据

对于二维平面的数据,我们将x1轴和x2轴先平移,再同时按逆时针方向旋转一定的角度,得到新坐标轴C1,C2,其中C1,C2是两个新变量

在旋转的过程中,我们尽量让数据在C1方向上的方差最大,所以在新坐标中,数据的发散程度主要在C1方向上,C1是原始数据变差最大的方向,而在C2方向上,数据相对集中

结论:主成分分析在几何意义上就是旋转坐标轴,使数据在这个坐标轴上的方差最大

三.因子分析

因子分析也是多元统计方法中常见的一种,和主成分分析一样,也是采用降维的思想,而且已经被各行业广泛应用

虽然两者都是降维的思想,但在实际的应用中,这两种方法又有自己不同的侧重点

主要思路:降维,简化数据结构

目的:将(具有错综复杂关系的)变量综合为(数量较少的)因子,以再现原始变量与因子的关系

原理:人的心理结构具有层次性,即分为外显和内隐。一个人的内在自我会在相当程度上决定他的外在行为特征,表现为某些行为倾向具有高度的一致性或相关性。反过来说,我们可以通过对个体进行系统的观察和测量,从一组高度相关的行为倾向(可观测)中,探索到某种稳定的内在心理结构(潜在的)

这种内在规律的探索,就是因子分析所能做的

四.聚类分析

能干的聚类专家善于在细微处见功夫,善于找出某些子集的特色,把大集合中的对象凝聚成若干个特色小簇,小集合,使得簇内相似度大,簇间相似度小

聚类技术的应用非常广泛,中文中有很多类似“同某”的词汇,如同学,同乡,同事,同胞,还有数学上的同态,同构,都是聚类技术的具体应用

像“同学”,“同乡”等名词,对应英文单词attribute(属性),在敬酒技巧中可泛称为同A技巧

它是用来表明:我们之间是有共同属性的,目的是借此来拉近彼此的距离

一句话:敬酒就是通过套近乎是自己进入到某个簇中

需要说明的是:对于聚类,我们既可以用某一项指标来分类,也可以同时考虑多项指标来分类

分类:就是按照某种标准,给对象贴标签,再根据标签来区分归类

聚类:是指事先没有“标签”,而是通过某种成因分析找出事物之间聚集的原因

聚类和分类的区别

分类是按照事先定义好的分类体系进行分类;聚类不存在分类体系,类别在聚类过程中自动生成

分类是被动的,聚类是主动的:分类代表了人们主观意志对分类过程的监督,它是被动的划分类别;聚类遵循的是“物以类聚,人以群分”的道理,所以聚类对象是主动自发

聚类分析的目的:根据某种准则(最短距离法,最长距离法,中间距离法,重心法),使同一类内的差别较小,而类与类之间的差别较大,将相似的事物归类,从而简化分析对象

随着人类科学技术的发展,对分类的要求越来越高,以致于仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,之后就形成了聚类分析

聚类分析是通过建立一种分类,将一批样本按照在性质上的亲疏程度,在没有先验知识的情况下自动进行分类的过程

其中:类内个体具有较高的相似性,类间的差异性较大

亲疏程度:指的是数据间的相似程度或差异程度,距离越近,越亲密,聚成一类,距离越远,越疏远,分别属于不同的类

分类:系统聚类或分层聚类,快速聚类,两步聚类

1.系统聚类

定义:将若干个体分成若干类的方法

基本思想:先将每一个体各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止

系统聚类不需要事先规定好分几类,开始时有多少点就是多少类

2.K均值聚类

也叫快速聚类

它要求事先说好要分多少类,所以看起来有些主观

步骤:假定分3类,K均值聚类要求事先确定3个点为“聚类种子”,也就是说,把这3个点作为三类中每一类的基石;然后根据和这三个点的距离远近,把所有点分成三类;再把这三类的中心(均值)作为新的基石或种子(原来的种子就没用了),重新按照距离分类

系统聚类通常用于数据量较少的情况下,如果数据太大,系统聚类会很慢很低效,而且系统聚类无需事先指定分成几类

K均值聚类法占内存少,计算量小,处理速度快,特别适合处理大样本数据,而且数据量越大,准确性越高,但是需要我们事先指定聚成几类

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
envipca(Environmental Principal Component Analysis)主成分分析是一种用于环境科学数据分析的方法。它是基于主成分分析(PCA)的统计技术,旨在降低环境数据的维度并解释数据的变异。 envipca主成分分析通过识别数据中最大方差的线性组合来分析和减少数据的维度。该方法主要分为两个步骤:计算协方差矩阵和提取主成分。首先,通过计算变量之间的协方差矩阵,envipca可以确定变量之间的相关性。然后,算法会找出能够最好地解释数据方差的主成分。这些主成分是原始数据中最重要的特征,可以通过依次降低相应的特征值来选择。 envipca主成分分析的优点在于它可以降低数据的维度,消除无关变量和冗余信息,减少数据处理的复杂性。此外,envipca还可以帮助我们识别出主要影响数据变异的变量,从而更好地理解数据背后的模式和关联性。 除了主成分分析之外,envipca还可以与其他统计技术和可视化方法结合使用,以更全面和准确地分析环境科学数据。通过将envipca与聚类分析因子分析或相关性分析等方法相结合,我们可以更好地理解数据的特征和变异,并从数据中提取有意义的信息。 总之,envipca主成分分析是一种在环境科学数据分析中常用的方法。它通过降低数据的维度和提取主要特征来帮助我们更好地理解数据背后的模式和关联性。该方法的应用有助于优化数据处理和分析过程,并从数据中提取有意义的信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值