最近在整理自己之前学的一些东西,发现生信的知识点多而乱,想写点东西。
本来在本科入学之前我是像爱因斯坦看齐,想当一个理论物理学家的,后来阴差阳错地做了生信。
生物信息学作为一个交叉学科,涉及到诸多领域的结合
我以前主要做的是高通量测序,最上游,需要了解测序的原理,了解测序生成的数据文件,了解比对软件的原理
有这几大块的内容需要了解学习
首先是测序的原理部分。不知道测序的原理不好预处理测序数据,预处理完数据之后开始用软件跑,跑完之后得到结果还得可视化,跑软件这块是最容易出问题的了,出了错要会解决BUG吧,一般都是google,但有些生信软件过于小众,只能自己去看源代码,所以会几门常用的脚本语言,python,perl,R等。最好精通一门。基本所有软件的运行环境都在linux下,你得会linux基本操作吧。有时候老师要让你做些独立的分析,就得学一些统计学知识。
除了这些,计算机基础知识也很重要(最基本的数据库得会用吧,sql要会)。
软件这块详细说说,软件生成的都是生信文件格式,常用的文件格式sam,bam,bed之类啊也需要了解,以及对应的小工具bedtools,samtools都得学会用。
4.数据的可视化。R里面的ggplot2,python的matplotlib得熟悉,为了操作数据data.table,pandas得学吧。
以下就是技术栈:
基础:python(pandas,matplotlib,biopython) perl R(ggplot2,data.table) linux sql
通用的分析流程:bedtools samtools IGV软件使用 bed sam vcf文件格式。hisat2 stringtie 分析差异基因流程。
然后是各领域的各种分析软件,比如做突变的就GATK,ANNOVAR。我做过PA-seq和环状RNA分析,又用不同的软件。还用过一些其他乱七八糟的软件WGCNA什么的。
基本的统计知识:数理统计,回归,常用机器学习方法等
事实上,高通量测序属于大数据分析,个人认为由于国内实验室经费的不足,样本量常常不足,比如一般来说RNAseq要求生物学重复为3个,但国内通常为2个,甚至没有重复的情况。以及国内大部分老师对实验设计环节的忽视,很难从中挖掘出一些有用可靠的结果。吐槽一下,做一件事情的有一大堆软件(水文章),mapping啊差异基因分析啊,为什么呢,因为没有金标准,条条大路通罗马,做出来的可信度又有多少呢。。这是算法和统计天生的不足吧。
想起了我更早以前做过的计算生物学,Modeller,autodock,NAMD。。。也都是不靠谱的东西。计算机还达不到这样的计算力。
写得比较乱,就当是吐槽吧。事实上,我研究生就是在帮老板跑跑程序,老板也不懂生信,都是自己学,心累。
谈谈做这行的前途吧:
1.科研服务:蛋糕稳定但有限
2.精准医疗和基因算命:目前还在天上乱飞,落地太难。
3.学术:学术大佬就不说了。。。