Polysolver预测HLA分型原理及测试

最新推荐文章于 2024-10-29 17:32:08 发布

随风而逝*

最新推荐文章于 2024-10-29 17:32:08 发布

阅读量3k

点赞数 3

分类专栏：生物信息软件文章标签： HLA polysolver 生物信息

本文链接：https://blog.csdn.net/weixin_41869644/article/details/103904656

版权

生物信息软件专栏收录该内容

1 篇文章

订阅专栏

1.什么是HLA：

HLA(human leukocyte antigen ，人类白细胞抗原)是人类的主要组织相容性复合体（MHC）的表达产物，该系统是所知人体最复杂的多态系统。自1958年发现(Jean Dausset)第一个HLA抗原，到20世纪70年代，HLA便成为免疫遗传学、免疫生物学和生物化学等学科的一个重要新兴研究领域。已基本弄清其系统的组成、结构和功能，阐明了其理化性质和生物学作用。这些研究成果不仅具有重要的理论意义，而且具有巨大的生物医学价值。

2.使用全外显子组测序（WES）检测HLA基因中的体细胞突变受到HLA基因座的高度多态性的阻碍。主要难点有两个：

（1）人类参考基因组的每一个HLA基因都有一个单一的序列，很可能会歪曲个体的真实等位基因，从而导致次优比对。
（2）HLA基因富含GC碱基，因此由于捕获和扩增效率较低，测序覆盖率较低，测序错误增加，从而进一步降低了比对率。

针对以上原因，作者团队开发了 Polysolver算法，使用相对低覆盖率的WES数据，也可以实现高精度的HLA分型。

3.作者使用数据：8例慢性淋巴细胞白血病(CLL)患者的训练数据，这些数据包括WES数据以及传统的基于PCR的HLA分型。

首先证实了这组HLA基因中GC含量与覆盖度之间存在预期的低覆盖度和负相关关系。如图1。

4.作者认为可以通过与所有已知HLA等位基因库比对，来避免HLA read 未能与标准的reference有效比对这种情况。使用该比对结果来进行后面的HLA分型工作。总结下来，Polysolver包括以下步骤：

1. 改进HLA read 检索和比对;
   （1）生成了POLYSOLVER等位基因数据库，即所有已知HLA等位基因的全长基因组参考文库，
   使用IMGT数据库里面的MSA文件。
   （2）选择K-mer。图2显示为不同k-mer的比对特异性。WES数据为76-mer双端read
        作者选择38-mer作为tag library,保证接下来数据分析的100%灵敏度和23.3%的特异性。
        次步得到图3中的可能的HLA read（绿色框框部分）。
   （3）精准比对，使用Novoalign算法对（2）得到的所有read比对到POLYSOLVER等位基因数据库，
        保留每条read的所有最佳比对。
   
2. 采用两步贝叶斯分类方法对HLA等位基因进行推理。
   基于贝叶斯计算推断每个HLA基因的两个等位基因，该计算考虑了比对reads的基本特征，包括insert size的大小，以及每个等位基因的种族依赖性先验概率。
   HLA等位基因名称长这样(A*01:38或 B*46:71 或  C*16:118)，
   A,B,C指定基因名称；01,46，16指定血清活性；38,71,118指定蛋白质序列。

5.POLYSOLVER-based 突变检测：

(1)通过在正常样品上应用POLYSOLVER来推断HLA类型
(2)将肿瘤和正常样品中的HLA reads与推断的HLA等位基因重新比对，同时滤除可能的错误比对。
(3)通过比较重新排列的肿瘤和正常HLA reads，应用标准工具检测体细胞突变（MuTect和Strelka）。
(4)对检测结果的基因区和氨基酸改变信息注释。

6.下载安装方式：

https://github.com/jason-weirather/hla-polysolver

7.测试：

（1）HLA分型：

shell_call_hla_type hla-polysolver test/test.bam Unknown 1 hg19 STDFQ 0 output
-bam: path to the BAM file to be used for HLA typing/bam文件
-race: ethnicity of the individual (Caucasian, Black, Asian or Unknown)/人种
-includeFreq: flag indicating whether population-level allele frequencies should be used as priors (0 or 1)
指示是否应将人群水平等位基因频率用作先验标记（0或1）
-build: reference genome used in the BAM file (hg18 or hg19)/bam中用的参考基因组
-format: fastq format (STDFQ, ILMFQ, ILM1.8 or SLXFQ; see Novoalign documentation)
fastq的格式
-insertCalc: flag indicating whether empirical insert size distribution should be used in the model (0 or 1)
标志，指示是否应在模型中使用经验插入尺寸分布（0或1）
-outDir: output directory

输出文件是：

（2）基于POLYSOLVER的突变检测：

./scripts/shell_call_hla_mutations_from_type normal_bam_hla tumor_bam_hla hla build format outDir

  -normal_bam_hla: path to the normal BAM file
  -tumor_bam_hla: path to the tumor BAM file
  -hla: inferred HLA allele file from POLYSOLVER (winners.hla.txt or winners.hla.nofreq.txt)
  -build: reference genome used in the BAM file (hg18 or hg19)
  -format: fastq format (STDFQ, ILMFQ, ILM1.8 or SLXFQ; see Novoalign documentation)
  -outDir: output directory

（3）突变注释：

./scripts/shell_annotate_hla_mutations indiv dir

-indiv: individual ID, used as prefix for output files
-dir: directory containing the raw call files (Mutect: call_stats*, Strelka: *all.somatic.indels.vcf). Also the output directory

由于只需要HLA分型结果，所以后面没跑，有时间来更新。

本博主新开公众号，希望大家能扫码关注一下，十分感谢大家。