Normalization overview(代谢组学数据)

  • The normalization procedures are grouped into three categories.
  • The sample normalization allows general-purpose adjustment for differences among sample.
  • Data transformation and scaling are two different approaches to make individual features more comparable. Use one or combine them to achieve better results.
Sample normalization

在样本间做数据标准化非常重要,一般标准化后的数据可以得到正态分布的数据集。代谢组学数据标准化方法大致三种。内标标准化(样品中加入内标)。基于样品本身(均值,中位值,总和等 校正)。QC标准化。
在这里插入图片描述

  • 内标标准化:内标标准化是在代谢物提取前或提取后,在样品中加入一个或多个内标物,然后用样品中的所有代谢物对应的峰面积 (Area i )以该样品中对应的内标物峰面积(Area 内),得到一个相对含量值。由于加入到每个样品中的内标物含量相等,所以在一定程度上能够将代谢物含量校准到加入内标时刻的状态。在提取前加入内标,则可以通过内标来减小提取过程中所造成的样品损失等影响。但是内标在校准由仪器产生的影响方面略显不足,在减小来自仪器平台的影响的时候,仍需要联合其他的方式一起运用。
  • Normalization by sum:MetaboAnalysis 推荐方式。某些feature的数值是否占比太大,noramlization by sum基本原理是把绝对值浓度转换成样本中占比来计算。但feature有一个H1浓度明显整体偏大,由此使其他样本但占比更小,太小但数据件差别就被模糊了,效果不好。总和标准化说明的是每个代谢物占样品中总代谢物含量比例。具体方法是将每个样品中所有代谢物的峰面积相加,得到一个样品代谢物含量的总和(Area总)。然后用每个代谢物含量(Area)除以这个总和,由于得到的数值会非常小,可以在此基础上,再乘以一个常数1000,这也叫做常数标准化。这样一来,所有样品中的代谢物含量被标准化到了同一个值。需要注意的是:这个方法的前提是总的代谢物浓度在样品之间没有差异
  • Normalization by median
  • Quantile normalization:四分数标准化方法
Data transformation
  • log transformation
Data scaling

把数据压缩到一个范围内。

  • Auto scaling:MetaboAnalysis4.0推荐,mean-centered and divided by the standard deviation of each variable。
  • Range scaling
  • Pareto scaling
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值