Polysolver预测HLA分型原理及测试

1.什么是HLA:

HLA(human leukocyte antigen ,人类白细胞抗原)是人类的主要组织相容性复合体(MHC)的表达产物,该系统是所知人体最复杂的多态系统。自1958年发现(Jean Dausset)第一个HLA抗原,到20世纪70年代,HLA便成为免疫遗传学、免疫生物学和生物化学等学科的一个重要新兴研究领域。已基本弄清其系统的组成、结构和功能,阐明了其理化性质和生物学作用。这些研究成果不仅具有重要的理论意义,而且具有巨大的生物医学价值。

2.使用全外显子组测序(WES)检测HLA基因中的体细胞突变受到HLA基因座的高度多态性的阻碍。主要难点有两个:

(1)人类参考基因组的每一个HLA基因都有一个单一的序列,很可能会歪曲个体的真实等位基因,从而导致次优比对。
(2)HLA基因富含GC碱基,因此由于捕获和扩增效率较低,测序覆盖率较低,测序错误增加,从而进一步降低了比对率。

针对以上原因,作者团队开发了 Polysolver算法,使用相对低覆盖率的WES数据,也可以实现高精度的HLA分型。

3.作者使用数据:8例慢性淋巴细胞白血病(CLL)患者的训练数据,这些数据包括WES数据以及传统的基于PCR的HLA分型。 

首先证实了这组HLA基因中GC含量与覆盖度之间存在预期的低覆盖度和负相关关系。如图1。

4.作者认为可以通过与所有已知HLA等位基因库比对,来避免HLA read 未能与标准的reference有效比对这种情况。使用该比对结果来进行后面的HLA分型工作。总结下来,Polysolver包括以下步骤:

 

1. 改进HLA read 检索和比对;
   (1)生成了POLYSOLVER等位基因数据库,即所有已知HLA等位基因的全长基因组参考文库,
   使用IMGT数据库里面的MSA文件。
   (2)选择K-mer。图2显示为不同k-mer的比对特异性。WES数据为76-mer双端read
        作者选择38-mer作为tag library,保证接下来数据分析的100%灵敏度和23.3%的特异性。
        次步得到图3中的可能的HLA read(绿色框框部分)。
   (3)精准比对,使用Novoalign算法对(2)得到的所有read比对到POLYSOLVER等位基因数据库,
        保留每条read的所有最佳比对。
   
2. 采用两步贝叶斯分类方法对HLA等位基因进行推理。
   基于贝叶斯计算推断每个HLA基因的两个等位基因,该计算考虑了比对reads的基本特征,包括insert size的大小,以及每个等位基因的种族依赖性先验概率。
   HLA等位基因名称长这样(A*01:38或 B*46:71 或  C*16:118),
   A,B,C指定基因名称;01,46,16指定血清活性;38,71,118指定蛋白质序列。

5.POLYSOLVER-based 突变检测:

(1)通过在正常样品上应用POLYSOLVER来推断HLA类型
(2)将肿瘤和正常样品中的HLA reads与推断的HLA等位基因重新比对,同时滤除可能的错误比对。
(3)通过比较重新排列的肿瘤和正常HLA reads,应用标准工具检测体细胞突变(MuTect和Strelka)。
(4)对检测结果的基因区和氨基酸改变信息注释。

6.下载安装方式:

https://github.com/jason-weirather/hla-polysolver

7.测试:

(1)HLA分型:

shell_call_hla_type hla-polysolver test/test.bam Unknown 1 hg19 STDFQ 0 output
-bam: path to the BAM file to be used for HLA typing/bam文件
-race: ethnicity of the individual (Caucasian, Black, Asian or Unknown)/人种
-includeFreq: flag indicating whether population-level allele frequencies should be used as priors (0 or 1)
指示是否应将人群水平等位基因频率用作先验标记(0或1)
-build: reference genome used in the BAM file (hg18 or hg19)/bam中用的参考基因组
-format: fastq format (STDFQ, ILMFQ, ILM1.8 or SLXFQ; see Novoalign documentation)
fastq的格式
-insertCalc: flag indicating whether empirical insert size distribution should be used in the model (0 or 1)
标志,指示是否应在模型中使用经验插入尺寸分布(0或1)
-outDir: output directory

输出文件是:

(2)基于POLYSOLVER的突变检测:

./scripts/shell_call_hla_mutations_from_type normal_bam_hla tumor_bam_hla hla build format outDir

  -normal_bam_hla: path to the normal BAM file
  -tumor_bam_hla: path to the tumor BAM file
  -hla: inferred HLA allele file from POLYSOLVER (winners.hla.txt or winners.hla.nofreq.txt)
  -build: reference genome used in the BAM file (hg18 or hg19)
  -format: fastq format (STDFQ, ILMFQ, ILM1.8 or SLXFQ; see Novoalign documentation)
  -outDir: output directory

(3)突变注释:

./scripts/shell_annotate_hla_mutations indiv dir

-indiv: individual ID, used as prefix for output files
-dir: directory containing the raw call files (Mutect: call_stats*, Strelka: *all.somatic.indels.vcf). Also the output directory

 

由于只需要HLA分型结果,所以后面没跑,有时间来更新。

本博主新开公众号, 希望大家能扫码关注一下,十分感谢大家。

 

本文主要参考:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4747795/

https://www.jianshu.com/p/5fc80f1554f3 

https://zhuanlan.zhihu.com/p/62944810?from_voters_page=true 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值