- The
normalization
procedures are grouped intothree
categories
. - The
sample normalization
allows general-purposeadjustment
fordifferences among sample
. Data transformation
andscaling
are two different approaches tomake individual features more comparable
. Use one or combine them to achieve better results.
Sample normalization
在样本间做数据标准化非常重要,一般标准化后的数据可以得到正态分布
的数据集。代谢组学数据标准化方法大致三种。内标标准化(样品中加入内标)。基于样品本身(均值,中位值,总和等 校正)。QC标准化。
- 内标标准化:内标标准化是在代谢物提取前或提取后,在样品中
加入一个或多个内标物
,然后用样品中的所有代谢物对应的峰面积
(Area i )除
以该样品中对应的内标物峰面积
(Area 内),得到一个相对含量值。由于加入到每个样品中的内标物含量相等
,所以在一定程度上能够将代谢物含量校准到加入内标时刻的状态
。在提取前加入内标,则可以通过内标来减小提取过程中所造成的样品损失等影响。但是内标在校准由仪器产生的影响方面略显不足
,在减小来自仪器平台的影响的时候,仍需要联合其他的方式一起运用。 - Normalization by sum:MetaboAnalysis 推荐方式。某些feature的数值是否占比太大,noramlization by sum基本原理是把绝对值浓度转换成样本中占比来计算。但feature有一个H1浓度明显整体偏大,由此使其他样本但占比更小,太小但数据件差别就被模糊了,效果不好。
总和标准化
说明的是每个代谢物
占样品中总代谢物含量
的比例
。具体方法是将每个样品中所有代谢物的峰面积相加,得到一个样品代谢物含量的总和(Area总)。然后用每个代谢物含量(Area)除以这个总和,由于得到的数值会非常小,可以在此基础上,再乘以一个常数1000,这也叫做常数标准化。这样一来,所有样品中的代谢物含量被标准化到了同一个值。需要注意的是:这个方法的前提是总的代谢物浓度在样品之间没有差异
。 - Normalization by median
- Quantile normalization:四分数标准化方法
Data transformation
- log transformation
Data scaling
把数据压缩到一个范围内。
- Auto scaling:MetaboAnalysis4.0推荐,mean-centered and divided by the standard deviation of each variable。
- Range scaling
- Pareto scaling