7月28日更新 :原链接失效了,已经更新。
上次回答的时候基因课的视频教程还是个人兴趣,业余时间录的,免费放到网上。
今年辞职全职做这个事情了,所以收费。只有收费才能保证内容精良和持续输出。每门课程也只有几十块钱。
收费的另一个原因是,很多同学没有 Linux 服务器,没法练习,我们为大家购买了云服务器供练习。
————————————————————————————
1. 基础语言
1.1 Linux
操作系统,是基础。
生物信息对Linux的要求其实并不高,并不是要做系统开发者或管理员,只需要会用就行。复制粘贴、处理数据、安装软件等。
软件安装绝对是一个大坑,很多时候信誓旦旦说下午要把数据分析完,结果半夜了软件还没装上,各种报错。
1.2 perl或python
处理个性化问题、软件之间的对接等。
这两门语言至少应该熟练掌握一门自己写程序用,另外一门要能看得懂。写点小脚本感觉差别不大,但是perl写大程序不合适。很多人认为python是趋势,但至少截止目前更多生信软件是用perl写的。
所以,如果刚开始学,建议主打python, 看懂perl。
python视频17年再录。
1.3 R
数据处理、统计、绘图、数据分析。
R语言的数据结构跟其他语言差异较大、而且总感觉语法比较散,不好记。但是R的软件包却异常强大。数据处理的reshape2, dplyr;绘图的ggplot2;还有Bioconductor里的几千个包。不得不会。
R自带的画图命令用起来感觉浑身难受,ggplot2是R的一个包,学会了感觉自己是艺术家
2 基本工具
2.1 数据过滤和质控
拿到测序数据之后,先看看数据质量咋样,把不合格的扔掉
质控软件fastqc
过滤软件Trimmomatic
测序数据过滤和质控学习视频链接,
不过写回答的时候还没有录完。
2.2 常用软件
太多了,比如blast,seqkit,MEGA等。
3 做什么
生物信息做的最多的就是基因组、转录组、重测序,每一类都有套路,每一步主流软件也就那么几个,没有太多选择
3.1 一个物种的基因组
基因组denovo的套路就是组装->注释->比较基因组分析->。。。
Genome assembly: SOAPdenovo, ALLPATH-LG等
Genome annotation: 结构注释推荐用maker,学习视频
注释完成之后,可以搭建个JBrowse基因组浏览器看看,后面分析也用得上,有精力可以做手工注释。
后面比较基因组内容很多,推荐一个工具MCScanX,能实现大部分基因组之间的比较。
3.2 重测序、变异检测、群体分析
重测序的套路是 测序reads比对到参考基因组->各种变异检测->。。。
DNA比对软件最主流的就是bwa, 比对完了生成一种叫sam/bam的比对格式,这个格式够你研究一下午的。
变异检测包括SNP、indel和结构变异SV,拷贝数变异CNV等。SNP和indel最主流的软件就是GATK,变异检测生成一种VCF的文件格式.
得到的VCF通常需要做一些处理,比如过滤掉质量低不可靠的变异位点。顺手的工具是vcftools。
完成变异检测之后,你可能想知道,这些变异都对基因功能产生了什么影响,这就是变异的注释。最主流的软件之一是SnpEff。
如果做的是群体重测序,要算一下PI,LD,Fst等,vcftools 也可以搞定。
3.3 多个样品的转录组
转录组是做的人最多,价格最最便宜,但其实也是信息分析最复杂的。为什么呢?因为转录组即包含了类似基因组denovo的拼接、类似重测序的比对和变异检测,而且分析起来更为复杂。
如果没有参考基因组,就需要进行拼接,应该95%以上的都是用trinity软件拼接得到转录本序列,然后使用bowtie2比对到转录本序列上的到sam格式比对文件。然后根据比对结果使用RSEM软件进行表达定量。
如果有参考基因组,直接使用 hisat2(替代tophat)或STAT将测序结果比对到基因组上,结合基因注释就可以计算出每个基因的表达。
拿到表达数据之后,最常做的是差异表达基因的鉴定。记住两款软件DESeq2和edgeR,根据一些测评文章,这两款是大多数情况下最靠谱的,cuffdiff哪些就不要用了。
暂时就写这么多吧。
推荐一个网站,生物信息软件大全啊,omictools