rsem比对_基于二代测序的肿瘤新生抗原检测方法、装置和存储介质与流程

本申请涉及肿瘤新生抗原检测领域,特别是涉及一种基于二代测序的肿瘤新生抗原检测方法、装置和存储介质。

背景技术:

肿瘤特异性抗原(tumor-specific antigens,缩写TSAs)是指肿瘤细胞所特有的抗原,又称新生抗原(neoantigens)。肿瘤特异性抗原被提出于上世纪前半叶,之后随着分子生物学发展及对主要组织相容性复合体(major histocompatibility complex,缩写MHC)分子功能的深入认识,Boon等人首先发现在肿瘤中,有肿瘤产生的特异性肽段与MHC分子复合物可以被CD8+或者是CD4+等T细胞识别。随后的研究认识到这些能被T细胞识别的抗原来自于肿瘤的基因组变异表达成肿瘤特有的肽段(neo-epitopes),被定义为新生抗原(neoantigens)。与肿瘤相关性抗原不同,肿瘤特异性抗原只存在于肿瘤细胞中。

最近免疫检查点抑制治疗已经在临床中取得巨大的成功,尤其是对突变负荷比较高的肿瘤患者。因为肿瘤的突变负荷高,表达出来的肿瘤新生抗原就比较多,从而容易引起体内T细胞识别并且杀伤肿瘤细胞。因此肿瘤新生抗原的数量和质量影响着免疫治疗的第一步,起了关键性的作用。2013年,肿瘤免疫治疗被Science评为十大科技进展之首,以Rosenberg、Schreiber等为首的科学家引领了肿瘤新生抗原的研究热潮。2014年5月,Rosenberg团队在《science》杂志报道过一个划时代的成功案例:利用体外扩增的、能特异性识别癌细胞基因突变导致的异常蛋白的淋巴细胞,成功治疗了一例极度恶性的晚期胆管癌患者。2016年末,Rosenberg团队筛选出了靶向KRAS基因G12D突变后的肿瘤新生抗原的TIL细胞,扩增回输后使得肿瘤消退,文章发表在顶级医学杂志《NEJM》。2017年,Catherine J.Wu和Ugur Sahin同时发表《nature》报道基于肿瘤新生抗原的个性化肿瘤疫苗通过早期临床试验。可见,肿瘤新生抗原的检测对免疫治疗具有重要意义。

目前已公布的肿瘤新生抗原的预测流程主要包括EpiToolKit和Epi-Seq。但是,EpiToolKit只是从突变出发,并没有考虑测序数据的深度和覆盖度,没有从数据质量上考虑突变的质量情况,从而无法判断所获得的新生抗原的质量。此外,EpiToolKit没有考虑表达丰度,没有考虑新生抗原的表达情况,会造成预测假阳性,无法筛选高质量新生抗原。很多DNA层面的突变是不表达的,平均可能有50%的突变是不表达的,因此可能造成预测新生抗原的假阳性。而且突变的表达有高有低,表达越高,总体上产生的免疫原性越强。另外,EpiToolKit也没有考虑突变肽和正常肽的比较,高质量的新生抗原一般是突变肽的亲和力比正常肽的亲和力要高,而EpiToolKit缺乏这样的比较,也会造成高质量新生抗原的筛选有假阳性。

Epi-Seq只是从肿瘤的表达数据出发预测肿瘤特异性抗原,从表达数据预测新生抗原,同样会造成假阳性。一方面,受RNA编辑的影响,容易造成假阳性;另一方面,因为RNA测序是从cDNA反转录后再测序的,这个过程也会引入很大的假阳性;再一方面,就是tumor cDNA VS germline DNA在检测方法上会有很多的假阳性。以上因素导致Epi-Seq获得的新生抗原存在较多的假阳性。

因此,目前还没有能够直接从测序比对结果出发,从多个角度筛选高质量的肿瘤新生抗原的方法和流程。

技术实现要素:

本申请的目的是提供一种新的基于二代测序的肿瘤新生抗原检测方法、装置和存储介质。

为了实现上述目的,本申请采用了以下技术方案:

本申请的第一方面公开了一种基于二代测序的肿瘤新生抗原检测方法,该方法包括以下步骤,

变异检测步骤,包括采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测,取两种突变检测软件检出的交集作为候选突变;同时,对肿瘤转录组测序结果的比对文件进行融合基因突变检测,将检出的融合基因突变也作为候选突变;其中,两种突变检测软件检出的交集是指两种突变检测软件都同时有检测到的突变,本申请的一种实现方式中,具体采用了VarScan和mutect两款软件检测点突变和插入缺失突变,并采用STAR-Fusion检测融合基因突变;

MHC分子鉴定步骤,包括分别采用HLA分子类型检测软件polysolver和BWA mem对正常样本和肿瘤样本的HLA分子类型进行检测,如果polysolver检测的肿瘤样本的HLA分子和正常样本匹配,则作为HLA分子亚型结果输出;如果不匹配,则检查BWA mem检测的肿瘤样本的HLA分子和正常样本的匹配情况,如果匹配则将BWA mem的HLA分子亚型检测结果输出,如果仍然不匹配,则输出空的结果,表明无法判断HLA的分子亚型;

变异注释步骤,包括对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释;本申请的一种实现方式中,具体采用VEP(Variant Effect Prediction)进行注释;

突变肽段预测步骤,包括对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测;具体包括,以点突变的突变氨基酸为中心,前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段;以插入缺失突变的突变位置为中心,向前延伸至少10个氨基酸的长度,向后延伸直至到达正常的氨基酸翻译的位置,作为插入缺失突变的突变预测肽段;以融合基因突变的融合位点为中心,截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段;本申请的一种实现方式中,具体采用transvar工具进行基因组突变肽段的预测;

突变肽段MHC I型和MHC II型亲和力预测步骤,包括将MHC分子鉴定步骤得到的肿瘤样本的HLA(人类淋巴细胞抗原human lymphocyte antigen,缩写HLA)分子类型、突变肽段预测步骤获得的突变预测肽段,以及突变预测肽段对应的野生型肽段序列作为MHC I型和MHC II型亲和力预测软件的输入,分别预测突变肽段与MHC I型和MHC II型基因的亲和力水平,将预测的亲和力水平小于500nM的作为候选肿瘤新生抗原;本申请的一种实现方式中,亲和力预测软件具体采用了netMHCpan和netMHCIIpan,500nM是一个常规的判定值;

抗原表达丰度检测步骤,包括采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度;本申请的一种实现方式中,具体采用RSEM软件计算突变肽段的TPM值作为新抗原表达丰度;

克隆性分析步骤,包括采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性,克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征;本申请的一种实现方式中,具体采用PyClone计算抗原所在的突变的克隆性,并输出新生抗原的克隆的概率和亚克隆的概率,即突变的克隆的概率和亚克隆的概率;

候选肿瘤新生抗原综合打分排序步骤,包括按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分,按照分值由高到低排序,选取分值高者作为肿瘤新生抗原;

公式一:Score(m)=EpitopeContent(m)×ExpressionLevel(m)×ClonalLevel(m)

公式一中,Score(m)为突变预测肽段m的总分值,EpitopeContent(m)表示新生抗原m所对应的所有具有MHC亲和力的抗原肽段p的打分值的总和;ExpressionLevel(m)表示新生抗原m的抗原表达丰度;ClonalLevel(m)表示新生抗原m的克隆性。

可以理解,本申请对所有候选肿瘤新生抗原进行综合打分排序,分数越高的新生抗原,其质量越高,将高分值的新生抗原作为细胞或疫苗治疗的靶点效果越好,因此,在选择应用时按照分值由高到低,优先选择高分值的新生抗原。

需要说明的是,本申请的肿瘤新生抗原检测方法,直接从二代测序的比对结果出发,检测突变和MHC类型,并从抗原表达丰度、克隆性和MHC亲和力等多个角度对候选肿瘤新生抗原进行打分,从而筛选出高质量的肿瘤新生抗原。因此,本申请的肿瘤新生抗原检测方法具有以下优势:1)可进行多种变异肽段的筛选,包括:错义突变,剪切位点突变,移码突变,非移码插入缺失,融合基因;2)能够检测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值