生物信息学常识汇总

电子病历方向

电子病历方面主要是筛选出冠心病影响的因素,通过抽取数据、数据缺失处理、数据文本校对、数据对齐等方式进行预处理,经过各种病的数据统计以后能够进行方向的确定,然后进行小样本分析,从而进行探索,相当于在机器学习这个层面还需要重新进行学习,感觉也会增加自己的时间成本。

  • 心脑血管疾病致病因素
  • 时序序列疾病的预测

多组学

基因组学,转录组学,蛋白质组学,代谢组学方面有很多的数据库可以做,而且基因组学和蛋白质组学方面的序列处理以及嵌入编码等方法与之前接触的词向量预训练模型有着相似的地方,从这个地方入手能够更快进入方向,将深度学习的技能和经验用到方法创新上面。

主要关注的方面为基因组学和蛋白组学方面

  • 用神经网络对基因的表达量进行分类,有不同程度修饰的蛋白
  • 染色质可及性和转录调控
  • 从基因型数据预测基因表达的模型
  • 鉴定lncRNA
  • 研究单细胞中调控机制,如甲基化,亚型分析
  • 基因组高级结构
  • 基因组变异
  • 基于长读长的数据利用深度学习进行base calling的技术
  • 预测非编码元件变异的功能结果
  • Nature Methods杂志上的一篇文章指出,DeepSEA 可以输入基因组序列,串联出大规模项目(如ENCODE和表观遗传学路线等)的染色质图谱,预测出一些重要调控位点的单核苷酸变异的影响,这些调控位点包括脱氧核糖核酸酶DNase敏感位点,转录因子结合位点,和组蛋白标记位点等
  • DeepBind 能发现RNA与DNA上的蛋白结合位点,预测突变的影响。
  • DeepVariant寻找基因变异,并且确定基因变异的位点,速度快,准确率高(谷歌)

首先要了解相关的基因方面的基本概念,包括基因结构、DNA结构、GWAS、SNP方面的结构等等。

基因的结构

DNA称为脱氧核糖核酸,可以组成遗传物质,一种由腺嘌呤脱氧核苷酸(dAMP )、胸腺嘧啶脱氧核苷酸(dTMP )、胞嘧啶脱氧核苷酸(dCMP )、鸟嘌呤脱氧核苷酸(dGMP )四种脱氧核糖核苷酸组成的长链聚合物

基因是DNA(脱氧核糖核酸)分子中含有特定遗传信息的一段核苷酸序列的总称,是具有遗传效应的DNA分子片段,是控制生物性状的基本遗传单位,是生命的密码,记录和传递着遗传信息。所有的基因都由4种碱基组成。

外显子和内含子,基因的编码区域里面包含外显子和内含子,外显子是直接可以转录成RNA的一段片段,内显子是经过修饰以后加入到转录的RNA中以后的片段,可以理解为内含子是外显子的补充。

基因的非编码区域,非编码区域占据基因片段的百分之90以上位点,在RNA的转录过程中并不发生转录行为,但是会控制编码区域的转录行为,比如启动子、终止子等等其他的附属功能都在这个区域,可以说这个区域是除了遗传信息意外的比较重要的区域,控制着编码区域基因的表达方式。

非编码区域与内含子的区别,既然内含子和非编码区域都不发生转录,那么肯定是有区别的,非编码区域只控制基因如何表达,比如基因的开始和结束,对于每一次转录他的作用都是一样的,并不会发生变化,存储着这一段基因特有的编码方式,但是内含子控制基因的编码内容,对于同一段基因不同时间的转录方式和RNA的组合方式,都会受到内含子的控制,可以说内含子虽然不直接进行编码,但是为基因片段在编码的时候提供了转录的多样性。

GWAS(Genome-wide association study),即全基因组关联分析,是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的SNPs。通常与疾病相关的SNP变异大多不是在编码蛋白质的DNA区域,相反,他们通常位于非编码区域上,或者位于编码基因的内含子上面,虽然这个变异不直接进行基因的编码,但是是可以控制外显子表达的重要基因片段。由于GWAS研究的各种研究设计方法以及遗传统计方法无法从根本上消除人群混杂、多重比较造成的假阳性,我们需要通过重复研究来保证遗传标记与疾病间的真关联。
简单来说,就是将基因测试人员分成两组,一组为case组,一组为control组,分别对相同位置的snp位点计算同组内所有人的的cIBD得分,每个人都相对于其他人计算得分值,然后比较两组得分的差异,差异比较大的snp为变异点,这不利于筛选多个位点的变异,变异其实就是当前个体相对于其他所有个体的差异性,现在的工作基本都是通过基因层面来数值化分析snp位点的差异,并不是通过变异位点的编码序列来判定位点的变异,通过基因序列的差异性变化能够分析出多个基因的差异性,能够更加准确得判定序列的差异了,而且容易生成自动化方案。

比如,寻找糖尿病的致病基因是哪一个位点,可以找到乳腺癌的致病SNP是那些,等等

mRNA,为messenger RNA 的简称,或称为信使RNA。mRNA是由DNA经由转录而来,带着相应的遗传讯息,为下一步转译成蛋白质提供所需的讯息。在细胞中,mRNA从合成到被降解,经过了数个步骤。在转录的过程中,第二型RNA聚合酶(RNA polymerase II)从DNA中复制出一段遗传讯息到mRNA前体pre-mRNA(尚未经过修饰或是部份经过修饰的mRNA,称作pre-messenger RNA,pre-mRNA,或是heterogeneous nuclear RNA,hnRNA)上。

MicroRNAs(miRNAs)是一种小的内源性非编码RNA分子,大约由21-25个核苷酸组成。这些小的miRNA通常靶向一个或者多个mRNA,通过翻译水平的抑制或断裂靶标mRNAs而调节基因的表达,通过与mRNA结合控制

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值