生信分析是个什么玩意儿?

生信小白:老板最近说,要搞搞高大上的全基因组测序,让我去做测序数据分析,可我都不懂哇...

生信猿:这不就是生物信息分析嘛,搭建集群,搭建流程,跑跑数据...

生信小白:听说你有一个朋友很厉害,可以让他教教我吗?

生信猿:你说的是西克孚肉吧,他可是生信方面的专家。我把他的名片给你了,你们好好交流吧。

生信小白:肉哥好,能跟我讲讲生信分析到底是个啥玩意儿吗?

西克孚肉:白白好,那我先跟你捋捋如何读取生命的密码吧。且听我慢慢道来...

Q:如何读取生命的密码?

西克孚肉:

DNA序列承载着控制生物性状的遗传信息,DNA是长链大分子,你以看看我身上穿的这件衣服,是一个小的DNA片段。DNA有四种碱基A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)。

人类基因组有30亿个碱基对,可以理解为这是一本由30亿个ATCG字母构成的“书”。

如何从这本书中翻译出生命的奥秘呢?目前主流的方法是使用二代测序来测整个人全基因组。按照经验,一个标准的人全基因组测序原始数据可以达到100GB。

二代测序技术是将DNA的长链分子随机打断,然后用化学方法一批批地将小片段DNA扩增和读取出来。

我们可以这样简单理解:

测序相当于将生命之“书”投进碎纸机,变成了一条条碎纸片段(序列打断),每个片段一般只有几百个字母。由于碎纸片段实在细碎繁多,可能遗漏某些重要片段,所以通常会把碎纸片复印(聚合酶链式反应,PCR)多份,再进行扫描(基于荧光标记dNTP的光学检测),把这些碎纸片段的字母读取出来。

拿到这些扫描后的片段数据(短序列),我们需要用计算机去处理(生物信息分析),尽可能拼回原来完整的书,并寻找书中独特的词(基因变异)。然后去查字典(变异数据库),看看究竟这些词表达什么意思(信息注释)。

典型的生物信息过程包括:首先去掉质量不高、破损严重的短序列数据(质量控制 Quality Control/Filtering),然后完成基因组比对/组装( Mapping/Assembly),进而寻找基因变异(Variant Calling)。

从大体量的数据中,找到基因突变信息,这就是生物信息分析的工作。

生信小白:听你这么一说,我大致明白了生物信息分析是在做什么的了,但我应该如何上手呢?

西克孚肉:别急,一步步来嘛,干我们这行的,没点“家伙”怎么行?

 

Q:生信分析的工具有哪些?

西克孚肉:

生物信息的工具有很多,主要是:bwa,samtools,picard,GATK,bedtools,bcftools,vcftools,FastQC,MultiQC,VEP等等,GATK是目前被广泛使用和认可的分析软件 。

通常来讲,一个成年人的变异大概有两百多万个,但对于特定的疾病,可能只有几个或几百个有意义的,突变的寻找有如大海捞针。幸运的是,我们并不是漫无目的地寻找,我们可以借助一些公开的数据库,来过滤掉不相关的信息

生信小白:肉哥你这讲解深入浅出,我觉得老板交代给我的任务已经完成了一大半...

 

西克孚肉:不着急,这只是一个开始噢。我们将在这一系列的连载,来告诉你生信分析需要做些什么。

  • 63
    点赞
  • 170
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值