归一化
R语言:频数柱形图、直方图,数据归一化,标准化,取平方根,log10处理https://www.jianshu.com/p/987a01ccbd13
scale函数对矩阵归一化是按行归一化,还是按列归一化?https://www.jianshu.com/p/115d07af3029
2 各种Size Factors的计算
2.1 文库相关的size factor | library size normalization
这个的计算也是最简单最常用的
文库大小指的就是:每个细胞中所有的基因表达量之和
进行归一化时,需要根据每个细胞的文库大小各自计算一个”library size factor“,而这些factor的均值为1
作者:刘小泽
链接:https://www.jianshu.com/p/76a3b169d529
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
2.3 使用spike-in计算size factor
它基于的假设是:外源RNA(spike-in)添加到每个细胞时的量都是一样的。如果出现同一spike-in转录本表达量在各个细胞之间的差异,问题只能是细胞相关,例如不同细胞捕获效率、不同细胞测序深度等等。
因此,计算spike-in size factor的目的也正是去除这方面的偏差。相比之前的两种方法,spike-in的方法不再基于生物学背景假设(比如是否存在很多差异基因),而是假设:
添加到每个细胞的spike-in的量都是一定的
对偏差的反应,和内源基因是一样的
作者:刘小泽
链接:https://www.jianshu.com/p/76a3b169d529
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
归一化
归一化不是绝对必要的,但是推荐进行归一化。
有重复的样本中,应该不具备生物学意义的外部因素会影响单个样品的表达,例如中第一批制备的样品会总体上表达高于第二批制备的样品,假设所有样品表达值的范围和分布都应当相似,需要进行归一化来确保整个实验中每个样本的表达分布都相似。可以使用edgeR::calcNormFctors()函数来用TMM方法进行归一化,通过计算归一化系数来决定文库大小的缩放系数当进行归一化时,如果对象是DGElist,那么这些归一化系数会被自动存在x
s
a
m
p
l
e
s
samples
samplesnorm.factors
测序深度
不同文库大小代表不同测序深度。这是基本建模过程的一部分,并自动进入倍数变化或p值计算。它始终存在,不需要任何用户干预。
有效库大小
在某些情况下,如果一小部分高表达基因消耗了一个特定样本文库大小的很大一部分,这将导致该样本剩余基因的采样不足。除非对这种效应进行调整,否则在该样本中其余的基因可能会错误地表现为下调。(因为高表达基因比较多,消耗了大量的测序资源,导致非高表达基因会相对偏低。)
使用函数edgeR::calcNormFactors(),默认使用TMM方法进行归一化,归一化后,会给样品分配缩放系数。
将原始库大小与缩放因子的乘积称为有效库大小。有效的库大小会在所有下游分析中替换原始库大小。
y calcNormFactors(y)
注意⚠️:
归一化并不会直接在counts数值上修改,而是归一化系数会被自动存在x
s
a
m
p
l
e
s
samples
samplesnorm.factors。
————————————————
版权声明:本文为CSDN博主「一抹翠绿」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_29095049/article/details/112421881
https://blog.csdn.net/weixin_33713350/article/details/89613737?ops_request_misc=&request_id=&biz_id=102&utm_term=normFactors=normFactors&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-1-89613737.first_rank_v2_pc_rank_v29&spm=1018.2226.3001.4187
归一化
输入如下指令,归一化矩阵数据,并赋值回来
test1 <- scale(test1)
结果如下图https://www.jianshu.com/p/61ca678fed4d
https://blog.csdn.net/hzp123123/article/details/105132189?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161838136716780264083746%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=161838136716780264083746&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_v2~rank_v29-3-105132189.first_rank_v2_pc_rank_v29&utm_term=normFactors&spm=1018.2226.3001.4187
一、Min-max 标准化
min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x’,其公式为:
新数据=(原数据-极小值)/(极大值-极小值)
二、z-score 标准化
这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。 z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
新数据=(原数据-均值)/标准差
spss默认的标准化方法就是z-score标准化。 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。步骤如下:
求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
.进行标准化处理:zij=(xij-xi)/si,其中:zij为标准化后的变量值;xij为实际变量值。
将逆指标前的正负号对调。 标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
三、Decimal scaling小数定标标准化
这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x使用decimal scaling标准化到x’的计算方法是:x’=x/(10j) 其中,j是满足条件的最小整数。例如 假定A的值由-986到917,A的最大绝对值为986,为使用小数定标标准化,我们用1000(即,j=3)除以每个值,这样,-986被规范化为-0.986。 注意,标准化会对原始数据做出改变,因此需要保存所使用的标准化方法的参数,以便对后续的数据进行统一的标准化。除了上面提到的数据标准化外还有对数Logistic模式、模糊量化模式等等: 对数Logistic模式:新数据=1/(1+e^(-原数据))模糊量化模式:新数据=1/2+1/2sin[派3.1415/(极大值-极小值)(X-(极大值-极小值)/2) ] ,X为原数据
数据归一化
作者:瑚楊AFPMCC
链接:https://www.jianshu.com/p/14d60e5f8645
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。
归一化的目标
1 把数变为(0,1)之间的小数
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。
2 把有量纲表达式变为无量纲表达式
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 比如,复数阻抗可以归一化书写:Z = R + jωL = R(1 + jωL/R) ,复数部分变成了纯数量了,没有量纲。
另外,微波之中也就是电路分析、信号系统、电磁波传输等,有很多运算都可以如此处理,既保证了运算的便捷,又能凸现出物理量的本质含义。
作者:Stefan0
链接:https://www.jianshu.com/p/eefd80a058f7
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
https://www.jianshu.com/p/95a8f035c86c