1.什么是HLA:
HLA(human leukocyte antigen ,人类白细胞抗原)是人类的主要组织相容性复合体(MHC)的表达产物,该系统是所知人体最复杂的多态系统。自1958年发现(Jean Dausset)第一个HLA抗原,到20世纪70年代,HLA便成为免疫遗传学、免疫生物学和生物化学等学科的一个重要新兴研究领域。已基本弄清其系统的组成、结构和功能,阐明了其理化性质和生物学作用。这些研究成果不仅具有重要的理论意义,而且具有巨大的生物医学价值。
2.使用全外显子组测序(WES)检测HLA基因中的体细胞突变受到HLA基因座的高度多态性的阻碍。主要难点有两个:
(1)人类参考基因组的每一个HLA基因都有一个单一的序列,很可能会歪曲个体的真实等位基因,从而导致次优比对。
(2)HLA基因富含GC碱基,因此由于捕获和扩增效率较低,测序覆盖率较低,测序错误增加,从而进一步降低了比对率。
针对以上原因,作者团队开发了 Polysolver算法,使用相对低覆盖率的WES数据,也可以实现高精度的HLA分型。
3.作者使用数据:8例慢性淋巴细胞白血病(CLL)患者的训练数据,这些数据包括WES数据以及传统的基于PCR的HLA分型。
首先证实了这组HLA基因中GC含量与覆盖度之间存在预期的低覆盖度和负相关关系。如图1。
4.作者认为可以通过与所有已知HLA等位基因库比对,来避免HLA read 未能与标准的reference有效比对这种情况。使用该比对结果来进行后面的HLA分型工作。总结下来,Polysolver包括以下步骤:
1. 改进HLA read 检索和比对;
(1)生成了POLYSOLVER等位基因数据库,即所有已知HLA等位基因的全长基因组参考文库,
使用IMGT数据库里面的MSA文件。
(2)选择K-mer。图2显示为不同k-mer的比对特异性。WES数据为76-mer双端read
作者选择38-mer作为tag library,保证接下来数据分析的100%灵敏度和23.3%的特异性。
次步得到图3中的可能的HLA read(绿色框框部分)。
(3)精准比对,使用Novoalign算法对(2)得到的所有read比对到POLYSOLVER等位基因数据库,
保留每条read的所有最佳比对。
2. 采用两步贝叶斯分类方法对HLA等位基因进行推理。
基于贝叶斯计算推断每个HLA基因的两个等位基因,该计算考虑了比对reads的基本特征,包括insert size的大小,以及每个等位基因的种族依赖性先验概率。
HLA等位基因名称长这样(A*01:38或 B*46:71 或 C*16:118),
A,B,C指定基因名称;01,46,16指定血清活性;38,71,118指定蛋白质序列。
5.POLYSOLVER-based 突变检测:
(1)通过在正常样品上应用POLYSOLVER来推断HLA类型
(2)将肿瘤和正常样品中的HLA reads与推断的HLA等位基因重新比对,同时滤除可能的错误比对。
(3)通过比较重新排列的肿瘤和正常HLA reads,应用标准工具检测体细胞突变(MuTect和Strelka)。
(4)对检测结果的基因区和氨基酸改变信息注释。
6.下载安装方式:
https://github.com/jason-weirather/hla-polysolver
7.测试:
(1)HLA分型:
shell_call_hla_type hla-polysolver test/test.bam Unknown 1 hg19 STDFQ 0 output
-bam: path to the BAM file to be used for HLA typing/bam文件
-race: ethnicity of the individual (Caucasian, Black, Asian or Unknown)/人种
-includeFreq: flag indicating whether population-level allele frequencies should be used as priors (0 or 1)
指示是否应将人群水平等位基因频率用作先验标记(0或1)
-build: reference genome used in the BAM file (hg18 or hg19)/bam中用的参考基因组
-format: fastq format (STDFQ, ILMFQ, ILM1.8 or SLXFQ; see Novoalign documentation)
fastq的格式
-insertCalc: flag indicating whether empirical insert size distribution should be used in the model (0 or 1)
标志,指示是否应在模型中使用经验插入尺寸分布(0或1)
-outDir: output directory
输出文件是:
(2)基于POLYSOLVER的突变检测:
./scripts/shell_call_hla_mutations_from_type normal_bam_hla tumor_bam_hla hla build format outDir
-normal_bam_hla: path to the normal BAM file
-tumor_bam_hla: path to the tumor BAM file
-hla: inferred HLA allele file from POLYSOLVER (winners.hla.txt or winners.hla.nofreq.txt)
-build: reference genome used in the BAM file (hg18 or hg19)
-format: fastq format (STDFQ, ILMFQ, ILM1.8 or SLXFQ; see Novoalign documentation)
-outDir: output directory
(3)突变注释:
./scripts/shell_annotate_hla_mutations indiv dir
-indiv: individual ID, used as prefix for output files
-dir: directory containing the raw call files (Mutect: call_stats*, Strelka: *all.somatic.indels.vcf). Also the output directory
由于只需要HLA分型结果,所以后面没跑,有时间来更新。
本博主新开公众号, 希望大家能扫码关注一下,十分感谢大家。
本文主要参考:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4747795/