北京大学生物信息学(9)第二代基因组测序技术

该内容探讨了二代基因组测序技术在遗传变异研究中的应用,包括基因组装配、比对方法如Bowtie和BWA等。遗传变异来源与类型如SNV、插入缺失等被详细阐述,并讨论了其对表型的影响。通过SIFT和PolyPhen等工具预测突变功能,以及如何判断疾病相关性。文章还提及了遗传变异数据库的重要性和GWAS研究中非编码区突变的角色。最终,介绍了基于SVM的预测模型来评估突变影响的准确性。
摘要由CSDN通过智能技术生成

北京大学生物信息学(9)第二代基因组测序技术
如何预测一个遗传变异的功能及其对表型的变化
https://www.bilibili.com/video/BV13t411G7oh?p=26

常见的二代测序技术包括

在这里插入图片描述

基因组的装配
有参比对和无参比对
在这里插入图片描述

在比对的过程中存在的问题
在这里插入图片描述
比对的过程中,机器的耗时 和正确性在这里插入图片描述

在这里插入图片描述

那么常见的比对的第三方方法主要包括Bowtie 和BWA、MAQ以及SOAP 都可以用于序列的比对。
通过构建索引的方法,能够大大的减小比对的时间,这种 方法主要是利用seeding 的过程来降低整体的比对。
在这里插入图片描述

在这里插入图片描述
遗传变异的来源
父母遗传
从头突变
体细胞突变
在这里插入图片描述
常见的突变
染色体倍数变异(21三体综合征、唐氏综合症)
染色体结构的变异
染色体拷贝数的变异
短片段的插入和缺失
单核苷酸变异
突变
多态性(变异超过1%或者5%)
变异 是突变和多态性的统称。

在这里插入图片描述
插入缺失导致的结构
在编码区可导致读码框的移动以及费读码框的迁移。
在这里插入图片描述

单核苷酸变异带来的结果
缺失突变
在这里插入图片描述

在这里插入图片描述

SNV 的突变,并不一定全引起病变
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

如何通过遗传变异来预测表型

在这里插入图片描述

遗传变异功能的预测
在这里插入图片描述
常见的突变数据库
Swiss-port、OMIM 以及HGMD以及db SNP千人基因组
在这里插入图片描述

在这里插入图片描述

如何判断一个突变是中性突变还是疾病相关的突变?
对表型的影响,从表象到分子机制的挖掘
即个体的病变

动物模型的验证
细胞水平细胞形态功能的改变

蛋白功能的改变
蛋白结构的改变

蛋白序列的改变
在这里插入图片描述

GWAS 中研究出来的突变,主要位于非编码区
在这里插入图片描述

早期的通过替换矩阵来分析遗传变异
在这里插入图片描述

SIFT 算法基于保守性原则,重要的蛋白质的在多个物种中是保守的。因此在这些的蛋白质中的突变,将会更可能的导致疾病的发生。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
SIFT 的操作流程
第一步寻找相似的序列
第二步选择序列相似性高的序列(90%)
第三步 获得所选序列的多重比对结结果
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

经常用的准确性的评估
在这里插入图片描述
另一个的多态性表型预测的工具PolyPhen
它主要是基于序列和结构的预测改变对蛋白的功能的影响,因此它是主要基于多序列比对和蛋白质的三维结构
在这里插入图片描述

在这里插入图片描述
polyphen 的操作步骤
在这里插入图片描述

后来进行改进得到了新的版本2,基于机器学习的方法,而非经验的方法。使用的方法链接https://cloud.tencent.com/developer/article/1626445
在这里插入图片描述

高和魏lab 的开发工具
在这里插入图片描述

基于支持向量机SVM 进行分类的
第一步也是寻找感兴趣的蛋白是否有三维结构(无的话,通过SWISS-MODEL进行同源建模)

对于蛋白质建模的过程中,对于比对上的位点和骨架结构进行确定,没有比对上的位点和氨基酸改变了的位点需要通过能量最小方程来确定。

同源建模
在这里插入图片描述

高lab 软件的属性确定
在这里插入图片描述
考虑单个氨基酸周围的微环境,变异的氨基酸周围的10个氨基酸(20个原始的氨基酸的数目有多少个)
在这里插入图片描述

在这里插入图片描述
不同的半径预测的结果的准确性不同,当为13埃米的时候,预测结果最好。
在这里插入图片描述

第二个序列特点
变异位点附近功最近的功能性位点之间的距离。
在这里插入图片描述
第三个特点是无序区

多个研究发现,蛋白质的无序区的产生与多种疾病的发生有关。
考虑

氨基酸的替换也将会导致氢键数目的改变。氢键的电荷数目
在这里插入图片描述
蛋白质的其他的属性
在这里插入图片描述
突变对蛋白的跨膜区域的影响和突变对Bata聚集的影响以及来自HLA 家族的SAPs

对所有的数据的feature 进行统计,然后通过特征选择,然后选择对蛋白质结构和功能表影响最大的几个特征,再用SVM 的5倍交叉验证的方法进行验证。获得准确度和精确度。
5倍交叉模型,随机分5份,取其中一份,在剩下的4份理预测评估,进行5次循环。
在这里插入图片描述

通过SVM 后,可以得到准确度和特异性
在这里插入图片描述

准确度的评估
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
Angelina 所获得的突变BRAC1具有强的家族治病史。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值