Metabolomics

TIME_@

已于 2024-03-18 10:25:07 修改

阅读量2.5w

点赞数 39

分类专栏：生物信息文章标签：经验分享

于 2021-04-08 12:06:24 首次发布

本文链接：https://blog.csdn.net/geekfocus/article/details/115515203

版权

生物信息专栏收录该内容

50 篇文章

订阅专栏

样本选择

血浆 Blood Plasma

血浆主要作用运载血细胞，运输维持人体生命活动所需物质和体内废物等。血浆相当于结缔组织的细胞间质。血浆是血液重要组成部分，呈淡黄色液体（因含有胆红素）。血浆的化学成分水分占90~92%，其他10%以溶质血浆蛋白为主，并含有电解质、营养素（nutrients）、酶类（enzymes）、激素类（hormones）、胆固醇（cholesterol）和其他。血浆蛋白是多种蛋白质，用盐析法可将其分为白蛋白、球蛋白和纤维蛋白原三类。
血浆是血液的细胞外基质。血浆的组成极其复杂，包括蛋白质、脂类、无机盐、糖、氨基酸、代谢废物以及大量的水。血浆蛋白是血液中最重要的基质蛋白。

血清 serum：指纤维蛋白原已被除去的血浆

血清，指血液凝固后，在血浆中除去纤维蛋白原及某些凝血因子后分离出的淡黄色透明液体或指纤维蛋白原已被除去的血浆。其主要作用是提供基本营养物质、提供激素和各种生长因子、提供结合蛋白、提供促接触和生长因子使细胞贴壁免受机械损伤、对培养中的细胞起到某些保护作用。

血清与血浆做代谢组学区别

血液作为代谢组学研究领域中的重要体液样本，主要分为血浆和血清。与血浆相比，血清不含纤维蛋白原，成分较为简单，约含有1000多种内源性小分子代谢物。血清中所含小分子代谢物种类多、极性跨度大，既有高极性的氨基酸、葡萄糖和核苷类等，也有低极性的脂类和固醇类等，代谢物成分复杂，分析难度高。与血浆相似，血清的前处理过程相对复杂。
整体上两者代谢物质差别不大，但部分代谢物在两种样本的浓度差有差异。
不论是LC/GC MS，血浆和血清样本在pca等的模型得分图上，都是有很明显的区别的，LC-MS指的主要是正负离子的检测模式。和血浆相比，血清中一些代谢产物的含量有明显的升高，比如葡萄糖，氨基酸，磷脂酰胆碱以及磷脂酰乙醇胺等，而有的代谢产物含量却是明显降低的，比如尿酸，柠檬酸，丙酮酸和磷脂酰肌醇等，同一个研究项目选择同一类型的血液样本。
保证收集样本过程中的一致性，血清样本需要时间凝结，保证所有的样品凝血时间是一样的。

2012:Metabolomics: the apogee of the omics trilogy

在这里插入图片描述
在基于三重四极杆(QqQ)的靶向代谢组学工作流程中，首先使用感兴趣的代谢物的标准化合物建立选定的反应监测方法。在这里，确定最佳的仪器电压和响应曲线产生的绝对量化。在基于标准代谢物建立目标方法后，从组织、生物液体或细胞培养物中提取代谢物并进行分析。数据输出只提供已建立标准方法的代谢物的定量。在非靶向代谢组学工作流程中，代谢产物首先从生物样品中分离出来，然后用液相色谱和质谱分析(LC/MS)。数据采集后，使用XCMS等生物信息软件对结果进行处理，进行非线性保留时间比对，识别各组样品之间变化的峰值。在代谢物数据库中搜索感兴趣的峰的m/z值，以获得假定的鉴定。然后通过串联质谱(MS/MS)数据和保留时间数据与标准化合物的比较来确认假定的鉴定。
在这里插入图片描述
在基于液相色谱-质谱(LC/MS)的非靶向代谢组学中，根据所示的工作流程，根据准确的质量、保留时间和串联质谱(MS/MS)数据对代谢产物进行结构表征。首先，在代谢产物数据库中搜索感兴趣的m/z值。当一个击中点在质谱计的预期误差内返回时，标准化合物的保留时间和MS/MS数据与生物样品进行比较。标准数据可以在代谢物数据库中获得，如人类代谢组数据库和METLIN，或通过实验生成。

2015:Analytical methods in untargeted metabolomics: state of the art in 2015

在这里插入图片描述

代谢组研究平台介绍

LC-MS：液相质谱。灵敏度高，分辨率高，检测物质范围广，数据库待完善，依赖自建库。

结合了液相色谱仪有效分离热不稳性及高沸点化合物的分离能力与质谱仪很强的组分鉴定能力。
液相色谱串联质谱，液相色谱负责分离待测物与干扰物，质谱负责检测。样品进样后首先在流动相携带下进入色谱柱，经过色谱柱分离后，进入质谱进行检测。质谱根据被测物的质荷比（m/z）进行检测，被测物在离子源转换成气相离子进入质谱，在三重四级杆中一级质谱扫描特定范围离子或允许特定离子进入碰撞室，在碰撞室内分子离子碰撞裂解，形成子离子进入二级质谱，二级质谱扫描特定范围离子或允许特定离子进入检测器。LC-MS/MS具有灵敏度高，选择性强，准确性好等特点，在临床检测上适用范围远远超过放射性免疫检测和化学检测范围，是其他方法无可比拟的。
LC-MS可以通过采集质谱得到总离子色谱图。由于电喷雾是一种软电离源,通常很少或没有碎片,谱图中只有准分子离子，因而只能提供未知化合物的分子量信息，不提供结构信息。很难用来做定性分析，可用来定量分析。LC-MS关心样品中主成分，已经知道目标物。
LC-MS/MS采用串联质谱，既能得到分子离子峰，又有碎片离子峰，因而可以进行定性和定量分析。LC-MS/MS得出更多的碎片信息，帮助定性；
质谱的突出特点是本身有质量信息的，可以根据质量信息定性或提供定性的一些依据的（还需要其它的一些定性仪器）。其次质谱本身也有分离作用，按质量的分离，如果液相分离了一次，那LC－MS就分离了两次，而LC-MS/MS就分离了三次，LC-MS3就分离了四次（3级以上是离子阱质谱的特点）。
没有标准品，就只用面积相对定量。然后选用LCMSMS的SIM模式。
质谱定量分析，使用的一般是LC-MS/MS,不使用LC-MS, 看质荷比，推测分子量。UV可以用来定量，但是在有紫外吸收的干扰峰的时候，定量是不准的。LC-MS/MS使用母离子/子离子来进行定量，相对来说，干扰少，较准确，在PK/TK的应用广泛。质谱定量广泛接受的方式是MS/MS定量。这种定量常通过三级四极杆或离子阱质谱实现。使用MS/MS的原因：许多化合物有同样质量。用第一个维度即单级质谱MS定量时，缺乏特异性。第二个维度MS（即MS/MS）在大多数情况下，能够提供唯一的断裂。合并特异的母离子质量和唯一的碎片离子信息，可选择性地监测被定量化合物。
用LC-Q-TOF-MS 做代谢组学。LC-MS-MS定量分析使用SIM 或MRM模式。公认MRM更准确。SIM使用Q选择性的滤过选中的分子量。但是分子量相同的化合物很多，样品稍微复杂SIM基本不合适。MRM选择母离子和子离子。使用Q过滤母离子，q 轰击母离子，TOF过滤子离子，使子离子被检测器检测到。分子量相同，轰击后产生的子离子不一样的干扰离子就被排除了。MRM模式是更为可靠的LC-MS定量分析方法。MRM检测是离子对。内标的选择原理是结构基本和待测化合物类似。结构相同或类似，主要是为了满足被离子化的效率与样品类似。很多选择使用该化合物或此类化合物的氘代化合物。内标的选择还要求其分子量与待测物质不重合(需要尽量避开化合物的isotopic peak的m/z)，并且可以和待测物质分开。如果使用MRM样品被分开，理论上总离子流图上的每个峰都是代表一种物质。同时使用MRM模式，如果样品们的分子量与子离子不重叠，那即使在柱子中不被分开的化合物，也可认为在MS中被分开。
定性，需要标品，retention time 需要一致。定量，需要先作标准曲线(峰面积比与浓度)。

GC-MS：气相质谱。分辨率高，数据库全，前处理繁琐，需衍生化。

气相色谱的流动相为惰性气体，气-固色谱法中以表面积大且具有一定活性的吸附剂作为固定相。
多组分混合样品进入色谱柱后，吸附剂对每个组分吸附力不同，经过一定时间各组分在色谱柱中的运行速度也就不同。吸附力弱的组分容易被解吸，最先离开色谱柱进入检测器，而吸附力最强的组分最不容易被解吸下来，因此最后离开色谱柱。各组分在色谱柱中彼此分离，依次进入检测器中被检测记录。
质谱分析是一种测量离子荷质比（电荷-质量比）的分析方法，其基本原理是使试样中各组分在离子源中发生电离，生成不同荷质比的带正电荷的离子，经加速电场的作用，形成离子束，进入质量分析器。在质量分析器中，再利用电场和磁场使发生相反的速度色散，将它们分别聚焦而得到质谱图，从而确定其质量。

NMR：核磁共振仪。无创检测，动态范围窄，灵敏度低。

代谢物定性

在这里插入图片描述

代谢物定量

在这里插入图片描述

代谢组学产品技术体系

在这里插入图片描述
脂质的种类和性质与一般代谢物有一定区别，主要是疏水性的。8个大类构成。非靶向代谢也能测定一定量的脂质。脂质组学是代谢组学的一个领域，现已经发展成为一类独立的组学，旨在识别和定量细胞或组织内的脂质类成分，从而识别细胞水平的生物标志物并阐明代谢作用。

非靶向代谢组平台

在这里插入图片描述

非靶向代谢组学比较多个样品中所有代谢物的相对丰度，这些代谢物通常是复杂且没有先验知识。分离技术和高分辨准确质量（HRAM）Orbitrap MS 都必须具有极高的重现性和灵敏度，且能够测量较宽动态范围内的化合物，从极亲水性到疏水性代谢物。
LC-MS技术对样本中的代谢物同时进行定性和定量分析，与本地自建库和商业标准品数据库同时进行一级、二级信息的匹配来进行物质鉴定。LC-MS方法适合检测大部分代谢物，该技术成熟稳定，是研究代谢变化的主流技术，适用于各种复杂生物样本，一次检测能提供整体全面的代谢组信息。LC-MS比GC－MS的适用范围更广，适合各种复杂生物样本。

排机策略和数据质控

在这里插入图片描述

blank样本：去除背景？
QC实验样本混合：前两个QC平衡系统，其他QC数据质控。三个QC分段扫描（道尔顿）-二级谱图。

代谢组学数据库

在这里插入图片描述
mzCloud：thermo开发（含二级谱图）
mzVault：公司自建（含二级谱图）
Masslists：（一级谱图，分子量，辅助信息）

LC-MS/MS数据库—mz-Cloud

在这里插入图片描述

靶向代谢组

在这里插入图片描述
对从非靶向代谢组学实验或从文献中推断出来的已鉴定生物标志物进行确认或验证，通常需要在大量样品中定量有限数量的化合物。为了获得最高的选择性和确认性，高分辨准确Orbitrap MS 技术是确认所推断出来的生物标志物的技术选择。研究递进到高通量定量分析，其解决方案可以选择采用 TSQ 三重四极杆质谱仪进行 SRM 分析。

靶向代谢组产品及应用

在这里插入图片描述

类靶向代谢组

在这里插入图片描述

类靶向代谢建库及检测原理

在这里插入图片描述
类靶向代谢组的色谱体系难于靶向代谢。类靶向代谢检测的物质种类性质各异。正离子色谱梯度+负离子色谱梯度：耗时。依然是相对定量。

类靶流程-数据排机与质控

在这里插入图片描述

代谢组学技术比较

在这里插入图片描述

原始质谱信号–>数据转换->分析物相对含量值表

数据导入，自动比对
查看比对效果
峰提取
解卷积
化合物比对
如XCMS等软件

数据前处理

校正测定批次
针对大样本，多批次进行的实验，在质谱采集的过程中，批次内/批次间会产生离子信号的偏移。
1.1 内标校正：使用一个或者几个内标对所有的峰进行标准，不可靠。
1.2 基于样品本身：比如使用样品中所有峰的平均值、中位值或者总和对所有峰进行校正。
1.3 标准化方法是基于QC（质量控制）样本的数据标准化。将所有样本取等量混合起来，组成QC样本，然后在采集数据的时候，每隔一定数量的样品，插入一针QC样本。因为QC样本都是一样的，因此可以用QC样本来模拟数据采集过程中信号的变化。得到数据之后，对每一个峰（peak），都将QC作为训练集，然后建立预测模型，预测信号变化，从而对样品中的信号进行校正。R包MetNormalizer。
数据转换-中心化或者标准化等处理
2.1 Centering scaling：中心化，即减去每个变量的均值。
2.2 Auto scaling：自动标度化，也叫UV scaling（univariate scaling，单变量标准化），也就是上一步中心化后除以该变量的标准差，也叫Z-score标准化（较多）。
2.3 Pareto scaling：柏拉图标准化，一般写成Par标准化，与UV scaling的不同之处就是对标准差开根号。

信息分析流程

在这里插入图片描述

数据质控：PCA分析主要是看数据的质量（稳定性如何）。QC样品如比较集中，则反映数据的质量较好。另外可以直观的观察被分析样本有无天然的分组（适用于疾病-正常或者case-control研究中）
差异代谢物筛选：foldchange，p-value
差异分析：单变量统计分析（火山图等）；多维统计分析（PCA、PLSDA、OPLSDA）等。
功能分析：层次聚类分析；相关性分析；KEGG分析。

单变量统计分析

对筛选出的潜在生物标记物进行差异统计学分析，找出组间差异的代谢物（两组之间用Wilcoxon t-test，三组以上用kruskal-waillis检验或者方差检验）；另外还可以结合fold-change(差异倍数)分析。
Wilcoxon t-test：
kruskal-waillis：

PCA分析

stats包里的prcomp()和princomp()函数，FactoMineR包的PCA()函数，ade4包的dudi.pca()函数，以及ExPosition包的epPCA()函数。

(O)PLS-DA分析

主要是用来筛选对样本分类贡献较大的生物标记物，通常选择VIP>1的代谢物（需要注意的是，有监督模型建立之后需要进行模型的验证，如置换检验（permutation test，PLS-DA），交叉验证（cross-validation，OPLS-DA）等）（这里也可以参考一个用于分析代谢组学数据的R包 ropls 1.15.0）

网络分析

挖掘到差异或和表型强相关的代谢物后，还需挖掘和这些代谢物相关的代谢通路。一般用的多的是Metaboanalyst里的两个模块

差异代谢物筛选

在这里插入图片描述

差异代谢物分析

在这里插入图片描述

通路富集及ROC分析

在这里插入图片描述

转录组与蛋白组关联

在这里插入图片描述
转录组与蛋白组没有关联
是否可以转录组—代谢物组—蛋白质组间接关联

定量代谢组学研究思路：标志物筛选

在这里插入图片描述
外部验证内部验证？ROC？数据量

biomaker 发现

机制研究

在这里插入图片描述

代谢组+mGWAS

在这里插入图片描述

挖掘思路

在这里插入图片描述

重复数量

在这里插入图片描述

Metabolomics and isotope tracing

Given a well-annotated chromatography method, known metabolites can be identified based on exact mass and retention time.
Maven（ElMaven）：for datasets containing over 100 samples。(2019，cited 15)
XCMS：

XCMS主要用于LCMS raw files数据的pre-processing，包括保留时间校正、数据过滤、峰识别、峰提取等。
参考：[1]
xcms是R package，通过Bioconductor安装。
原始数据转换
xcms支持xml、mzData、mzXML、mzML、netCDF等数据格式，在利用xcms进行数据处理之前，需要对于质谱采集的原始数据进行格式转换，一般可使用ProteoWizard等。
利用centWave算法进行峰检测
findChromPeaks是xcms中用于进行峰检测的新方法，输入值为’OnDiskMSnExp’对象和峰检测参数对象，CentWaveParam用以创建’CentWaveParam’对象，该对象设置使用’centWave’算法进行峰检测时所需要的参数，其中比较常用的参数如下：
ppm – 峰检测时MS1的m/z tolerance，以ppm为单位
peakwidth – 长度为2的向量，设置峰检测时峰宽范围，事实上该参数对应的每个峰可以跨越多少个质谱检测的scan，而非多少秒
snthresh – 峰检测时信噪比要求
return.type – 返回数据类型，可以根据要求返回’XCMSnExp’类数据（默认）、传统的’xcmsSet’类以及’list’
xcmsSet是xcms中可以用于峰检测的传统方法，使用method参数设置峰检测算法，另外根据不同的峰检测算法可以设置该算法需要的参数，详情请参考xcms官方文档。其中’centWave’算法所对应的参数与’CentWaveParam’设置基本一致。
峰检测时除了可以使用centWave算法外，还可以使用其他算法，如’centWaveWithPredIsoROIs’、‘massifquant’、‘matchedFilter’、‘MSW’等，分别对应’CentWavePredIsoParam’、‘MassifquantParam’、‘MatchedFilterParam’、'MSWParam’参数设置。
峰对齐及分组（peak alignment & grouping）
同一代谢物在不同样品的流出时间会略有差异，对峰检测的结果进行对齐(alignment)将不同样品中的统一代谢物分到各自可以表征该代谢物的峰组(peak group)中(代谢组学中一般成为feature)，从而进一步比较不同样品间统一代谢物的含量。通常我们可以使用’obiwarp’算法进行peak alignment，然后利用’density’算法进行peak grouping.
峰补齐
对于峰检测过程中会有部分feature在某些样品中未检出对应代谢物峰的信息，xcms可以根据已检出feature的信息，在相应样品中强行提取EIC信息，从而计算该代谢物在该样品中的含量信息，我们一般称之为filling gaps
如此，对于一组代谢物样品的峰检测已经全部完成。

ProteoWizard：

官网
1
代谢组机器下机质谱数据通常无法直接给下游的开源分析工具使用的（比如XCMS），如果需要自己使用开源工具分析数据，首先需要将格式转为开放格式（open format）。
mzML，推荐格式，使用zlib压缩，转换后的文件会更小。且仍在更新
mzXML ：older file formats.
netCDF ：older file formats.
proteowizard支持被转换的格式如下：
–mzML : write mzML format [default]
–mzXML : write mzXML format
–mz5 : write mz5 format
–mgf : write Mascot generic format
–text : write ProteoWizard internal text format
直接安装的linux版本，没有格式转换的功能。需要转换供应商的（vendor）格式的话，可以使用其安装了window版本（通过wine来执行）的docker镜像。
2
MSConvert的Linux版本并不友好，需要wine/docker来运行Proteowizard

不知wiff文件的scan文件如何处理，先把scan文件去除运行
[hjb_usr04@localhost NEG]$ mv HX-A01-1.wiff.scan HX-A01-1.scan
msconvert /data/LCMS/NEG/HX-A01-1.wiff -o /data/ --mzML
format: mzML
    m/z: Compression-None, 64-bit
    intensity: Compression-None, 32-bit
    rt: Compression-None, 64-bit
ByteOrder_LittleEndian
 indexed="true"
outputPath: /data/
extension: .mzML
contactFilename:
runIndexSet:

spectrum list filters:

chromatogram list filters:

filenames:
  /data/LCMS/NEG\HX-A01-1.wiff

processing file: /data/LCMS/NEG\HX-A01-1.wiff
calculating source file checksums
writing output file: /data/HX-A01-1-Sample092.mzML
[C:\pwiz\msconvert.exe] Caught unknown exception.
Please report this error to support@proteowizard.org.
Attach the command output and this version information in your report:
ProteoWizard release: 3.0.20287 (769529fa4)
Build date: Oct 13 2020 23:37:03

[hjb_usr04@localhost NEG]$ mv HX-A01-1.scan HX-A01-1.wiff.scan
<nvert /data/LCMS/NEG/HX-A01-1.wiff -o /data/ --mzML
format: mzML
    m/z: Compression-None, 64-bit
    intensity: Compression-None, 32-bit
    rt: Compression-None, 64-bit
ByteOrder_LittleEndian
 indexed="true"
outputPath: /data/
extension: .mzML
contactFilename:
runIndexSet:

spectrum list filters:

chromatogram list filters:

filenames:
  /data/LCMS/NEG\HX-A01-1.wiff

processing file: /data/LCMS/NEG\HX-A01-1.wiff
calculating source file checksums
writing output file: /data/HX-A01-1-Sample092.mzML

[hjb_usr04@localhost NEG]$

.wiff.scan文件在msconvert运行是自动识别，需要与.wiff在相同文件夹下。

Progenesis QI软件

官网 1 2 3
发现样品中变化明显的化合物
Progenesis QI可精确定量和识别样品中变化明显的化合物，并支持所有常用仪器供应商的数据格式以及具有高度直观的菜单引导的工作流程，快速、客观、可靠地发现感兴趣的化合物。
借助强大的可视化功能解析复杂数据
关键特征之一是高度图形化和生动的数据显示方式。离子强度图显示色谱保留时间、m/z和特征强度的二维关系，以及质谱和色谱数据视图，为每份样品的自动匹配、峰值拾取和化合物加合物的解卷提供质量保证。
高度精确的化合物定量
以化合物的总离子强度为基础，可准确且精密地测量化合物。所有化合物加合物自动解卷，以便利用所有可用数据得到精确的定量。定量后，对各组内丰度有可能发生统计学显著变化的化合物进行识别。可在一次实验中对来自于多个组的大量样品进行研究，同时可设计多组对比。结果生成相关化合物清单，用于进一步表征。
借助多种搜索参数准确识别化合物
不仅根据中性质量数、同位素分布和色谱保留时间，而且还使用MS/MS碎片数据和碰撞横截面识别（CCS）测量，来搜索化合物。通过新型MetaScope搜索引擎得以实现。使用多种参数的数据库搜索，大幅改善了搜索的针对性，并提高了正确识别化合物的几率。
广泛的数据库数据，提高化合物识别几率
-所有.SDF格式的数据库
-.CSV格式的内部数据库
-Metlin数据库
-Lipidblast数据库（v2.0版具有的功能）
-NIST MS和MS/MS数据库（v2.0版具有的功能）
引导的数据处理工作流程
Progenesis QI具有菜单引导的工作流程。自动化例程可无缝地经历多个阶段，以便无人监管数据处理操作（v2.0版具有的功能）。
-自动参考运行选择和匹配
-自动峰值拾取和归一化
-从.CSV和.SPL文件中自动进行实验设计
-所有阶段均可为化合物识别而自动化
统计数据分析
使用Progenesis QI配备的统计工具找到感兴趣的化合物，工具包括：ANOVA；主成分分析（PCA）；分级群聚

HMDB：介绍官网

共计114183个代谢物条目。另外DrugBank（包含约2280种药物代谢物信息）、T3DB（包含约3670种常见毒素和环境污染物代谢物信息）、SMPDB（包含约25000个人类代谢物和疾病通路信息）和FooDB（包含约28000种食品成分和食品添加剂代谢物信息）。5702个蛋白质序列与这些代谢物条目相连。
Sequence Search：允许用户对HMDB中包含的5,702个基因和蛋白质序列进行BLAST序列搜索。支持单序列和多序列查询。
MS Search：允许用户提交质谱文件（MoverZ格式），将根据HMDB的LC-MS / MS谱库进行搜索，这样可以通过LC-MS / MS光谱从混合物中鉴定代谢物。

METLIN：

Metabolite Link侧重于非靶向代谢组学代谢产物的鉴定，其主要特征是具有大量代谢产物的MS/MS图谱，而且每个化合物都有不同的碰撞能图谱，可以清晰的找到代谢产物的碎片离子，还可获得分子量、化学结构式和化学结构等信息。该数据库包含超过960000种化合物，包括来自不同生物的内源性代谢物和外源性化合物。