出发点
探索人类组织特异性基因表达模式,尤其是考虑到传统的方法主要在基因水平上,忽略了由大多数基因产生的替代转录变体和蛋白质亚型的复杂性,这些变化与疾病预后和药物抗性有关。
介绍
文章的主要讨论了基因表达调控在不同细胞类型、发育阶段、组织、人群和物种间的差异性。大约有50,000个基因(编码和非编码)映射到大约200,000个亚型,意味着基因有两个或更多的蛋白质亚型,这些亚型通过mRNA的可变剪接生成,并且它们在组织中的特异性表达模式对发育和疾病过程中的调控机制有重要作用。此外,组织特异性与疾病启动和进展有显著关联,这有助于理解药物-靶标相互作用、生物标志物发现、预后和复杂疾病(如癌症)的诊断。
还指出,尽管人类组织执行共同的分子过程,但基因表达模式可以区分不同的组织。大多数mRNA表达研究将基因表达定义为一个基因所有亚型表达值的总和,但这些亚型可能在不同组织中具有独特的表达模式。因此,需要探索亚型水平上的组织特异性(TSp)表达,以理解它们在发育和疾病中的多样性和作用。
此外,还提到了现有的确定基因组织特异性的方法,包括TiGER数据库、基于Shannon熵的ROKU特异性、基于表达差异的组织特异性指数,以及广泛接受的基于τ(Tau)的评分方法。这些方法有助于理解组织特异性在生物学功能和疾病方面的调控作用。然而,许多RNA分析方法没有考虑RNA样本的质量、亚型水平的真实表达值,或者不同方法中表达变化的重要性。因此,文章提出了TransTEx方法,旨在通过将转录组分入不同的表达组来解决这些挑战,以更好地理解正常和疾病条件下的TSp基因调控。
结果
开发了一种名为TransTEx(Transcript-level Tissue Expression)的新型组织特异性评分方法,用于将转录本分组到四个表达组中。TransTEx通过应用顺序截止值到组织层面转录本概率估计、基于重采样的P值和倍数变化估计。在GTEx mRNA-seq数据上应用TransTEx将199,166个人体转录本分为不同的组,包括17,999个组织特异性(TSp)、7436个组织增强、36,783个广泛表达(Wide)、79,191个低表达(Low)和57,757个无表达(Null)转录本。
TransTEx原理
TransTEx(Transcript-level Tissue Expression)是一种新开发的方法,用于根据mRNA表达数据将人类转录本分组到不同的表达类别中。以下是TransTEx方法的详细原理解析:
- 转录本基线表达识别:
- 一个转录本如果在样本中的TPM(每百万转录本数)≥ 0.5,则被认为是在该样本中表达的。
- 计算第j个转录本在第i个组织中表达的概率(PijP**ij),即在第i个组织中TPM≥0.5.5的样本数除以该组织中总样本数。
- 通过绘制每个组织中PijP**ij值的分布图,确定大多数样本中一致表达的所有转录本。
- 确定PijP**ij值分布的右最拐点(R-IPi)作为截止值,以确定在第i个组织中表达的转录本。
- 识别TSp(Tissue-specific)和TEn(Tissue-enhanced)转录本:
- 计算感兴趣组织中第j个转录本的平均表达量(mTPMijmTPM**ij),然后找到该转录本在其他组织中的最大平均TPM值(max[mTPMkj]ma**x[mTPM**kj],其中k≠ik\=i)。
- 计算最大倍数变化(FC-MAXij)为log2(mTPMij/max[mTPMkj])log2(mTPM**ij/ma**x[mTPM**kj])。
- 应用分层重采样模拟方法来估计经验P值(EMP-p),以评估统计显著性。
- 转录本分组到不同的表达类别:
- 对于给定的转录本j,找出其表达概率高于R-IPi截止值的组织数量(k)。
- 根据k值将转录本分为以下几类:
- 低表达或无表达(Low或Null):如果k=0。
- 组织特异性表达(TSp):如果k=1。
- 组织增强表达(TEn):如果k在2到50%的组织之间(即13种组织)。
- 广泛表达(Wide):如果k超过50%的组织(即14至26个组织组)。
- 与现有方法的比较:
- 计算τ分数以找到TSp转录本,并将此与TransTEx以及SRTdb的Shannon熵度量进行比较。
- 将TransTEx、τ分数和SRTdb的TSp转录本与人类蛋白质图谱(HPA)数据库中的实验验证基因进行比较。
- 转录和剪接事件分析:
- 将TSp转录本表达类别分为单转录本和多转录本基因。
- 基于转录起始位点(TSS)的位置,将多转录本基因分类为单启动子和多启动子组。
- 富集细胞类型和通路分析:
- 使用基因本体论(GO)、DisGeNET和KEGG通路数据库来调查与大脑特异性转录本相关的通路。
- 使用scBrainMap数据库和WebCSEA工具来比较与大脑特异性映射基因相关的细胞类型。
TransTEx方法的创新之处在于它不仅考虑了转录本在组织中的表达水平,而且还考虑了样本质量(如RNA完整性编号RIN)和统计显著性,从而提供了一种更为精确和全面的组织特异性转录本分类。
结论
TransTEx方法提供了一种全面分类人类转录组为五个不同类别的方法。通过对TSp转录本的整合分析,强调了在剪接变体或同工型水平上进行基因调控和细胞类型标记分析的重要性。研究发现,睾丸具有最多的TSp转录本,其次是肝脏、大脑、垂体和肌肉。此外,单组织特异性是组织特异性的主要特征,而多组织特异性则由替代启动子的使用驱动。研究还发现,大脑亚区特异性转录本在其他组织中的表达模式不同,这为研究大脑亚区特异性疾病和理解疾病中的失调提供了资源。
数据和代码
文章提供了以下工具:
- TransTEx数据库:https://bmi.cewit.stonybrook.edu/transtexdb/
- R包,可通过GitHub访问:https://github.com/pallavisurana1/TransTEx