热图中的层次聚类

在这里插入图片描述
首先明白相关系数这个东西
相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量
简单相关系数:又叫相关系数或线性相关系数,一般用字母r表示,用来度量两个变量间的线性关系。
定义式
在这里插入图片描述
在这里插入图片描述

其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差

**协方差(Covariance)**中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同
不是概率分布时协方差公式:

对于概率分布函数,协方差可以这样表示
期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为
在这里插入图片描述
理解期望
从定义上看,离散型随机变量X的期望值是,在X的一切可能值得完备组中,各可能值xi 与其对应概率pi 的乘积之和称之为该随机变量X的期望值,记作E(X)或者。 即,若X取无穷个值:x1, x2 ,x3…
xn ,…对应的概率是p1,p2, p3,…pn
,…,则期望值为: E(X)=x1p1+x2p2+…xnpn+…
举例子
班有10个男生,以下是你收集到的数据:
170,172,175,176,172,176,176,175,172,176
加权平均值=170X(1/10)+175X(2/10)+172X(3/10)+176X(4/10)=174cm
0个男生的身高数据,并不是不一样的数值,而是只有四个数值,他们出现的次数占比,我们可以看成是概率。
170出现的概率:1/10
175出现的概率:2/10
172出现的概率:3/10
176出现的概率:4/10
我们可以计算出这组数据的期望:
期望=170X(1/10)+175X(2/10)+172X(3/10)+176X(4/10)=174cm
均值和期望的计算结果一致,所以我们可以近似地把他们看成是同一概念。
在这里插入图片描述
在这里插入图片描述

综上Pearson相关系数是用协方差除以两个变量的标准差得到的

在这里插入图片描述
热图上纵轴上每个基因的的distance可认为
在这里插入图片描述
相关性越大 ,距离越小,越相似,聚类聚在一起

如何聚类

层次聚类(algorithm of hierarchial clustering)
层次聚类的合并算法通过计算两类数据点间的相似性,对所有数据点中最为相似的两个数据点进行组合,并反复迭代这一过程。简单的说层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性,距离越小,相似度越高。并将距离最近的两个数据点或类别进行组合,生成聚类树。

欧几里德距离矩阵
层次聚类使用欧式距离来计算不同类别数据点间的距离(相似度)
过创建一个欧式距离矩阵来计算和对比不同类别数据点间的距离,并对距离值最小的数据点进行组合。以下是欧式距离的计算公式
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
后续详见 :http://bluewhale.cc/2016-04-19/hierarchical-clustering.html
转自“蓝鲸网站分析博客”。

老师教的方法
在这里插入图片描述
##(T1,T2)当作v1 ,计算(T1与T2到T3的距离和)/2,(T1与T2到T4的距离和)/2,(T1与T2到T5的距离和 )/2
合并T1,T2
得到一个新的距离矩阵
继续在找出min
min点在(T3,T5)
按照上面方法不断重复,合并,最终聚类成两大类

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值