北京大学生物信息学(9)第二代基因组测序技术
如何预测一个遗传变异的功能及其对表型的变化
https://www.bilibili.com/video/BV13t411G7oh?p=26
常见的二代测序技术包括
基因组的装配
有参比对和无参比对
在比对的过程中存在的问题
比对的过程中,机器的耗时 和正确性
那么常见的比对的第三方方法主要包括Bowtie 和BWA、MAQ以及SOAP 都可以用于序列的比对。
通过构建索引的方法,能够大大的减小比对的时间,这种 方法主要是利用seeding 的过程来降低整体的比对。
遗传变异的来源
父母遗传
从头突变
体细胞突变
常见的突变
染色体倍数变异(21三体综合征、唐氏综合症)
染色体结构的变异
染色体拷贝数的变异
短片段的插入和缺失
单核苷酸变异
突变
多态性(变异超过1%或者5%)
变异 是突变和多态性的统称。
插入缺失导致的结构
在编码区可导致读码框的移动以及费读码框的迁移。
单核苷酸变异带来的结果
缺失突变
SNV 的突变,并不一定全引起病变
如何通过遗传变异来预测表型
遗传变异功能的预测
常见的突变数据库
Swiss-port、OMIM 以及HGMD以及db SNP千人基因组
如何判断一个突变是中性突变还是疾病相关的突变?
对表型的影响,从表象到分子机制的挖掘
即个体的病变
动物模型的验证
细胞水平细胞形态功能的改变
蛋白功能的改变
蛋白结构的改变
蛋白序列的改变
GWAS 中研究出来的突变,主要位于非编码区
早期的通过替换矩阵来分析遗传变异
SIFT 算法基于保守性原则,重要的蛋白质的在多个物种中是保守的。因此在这些的蛋白质中的突变,将会更可能的导致疾病的发生。
SIFT 的操作流程
第一步寻找相似的序列
第二步选择序列相似性高的序列(90%)
第三步 获得所选序列的多重比对结结果
经常用的准确性的评估
另一个的多态性表型预测的工具PolyPhen
它主要是基于序列和结构的预测改变对蛋白的功能的影响,因此它是主要基于多序列比对和蛋白质的三维结构
polyphen 的操作步骤
后来进行改进得到了新的版本2,基于机器学习的方法,而非经验的方法。使用的方法链接https://cloud.tencent.com/developer/article/1626445
高和魏lab 的开发工具
基于支持向量机SVM 进行分类的
第一步也是寻找感兴趣的蛋白是否有三维结构(无的话,通过SWISS-MODEL进行同源建模)
对于蛋白质建模的过程中,对于比对上的位点和骨架结构进行确定,没有比对上的位点和氨基酸改变了的位点需要通过能量最小方程来确定。
同源建模
高lab 软件的属性确定
考虑单个氨基酸周围的微环境,变异的氨基酸周围的10个氨基酸(20个原始的氨基酸的数目有多少个)
不同的半径预测的结果的准确性不同,当为13埃米的时候,预测结果最好。
第二个序列特点
变异位点附近功最近的功能性位点之间的距离。
第三个特点是无序区
多个研究发现,蛋白质的无序区的产生与多种疾病的发生有关。
氨基酸的替换也将会导致氢键数目的改变。氢键的电荷数目
蛋白质的其他的属性
突变对蛋白的跨膜区域的影响和突变对Bata聚集的影响以及来自HLA 家族的SAPs
对所有的数据的feature 进行统计,然后通过特征选择,然后选择对蛋白质结构和功能表影响最大的几个特征,再用SVM 的5倍交叉验证的方法进行验证。获得准确度和精确度。
5倍交叉模型,随机分5份,取其中一份,在剩下的4份理预测评估,进行5次循环。
通过SVM 后,可以得到准确度和特异性
准确度的评估
Angelina 所获得的突变BRAC1具有强的家族治病史。