吐槽下生物信息

最新推荐文章于 2022-06-29 18:50:24 发布

kekefen01

最新推荐文章于 2022-06-29 18:50:24 发布

阅读量531

点赞数

本文链接：https://blog.csdn.net/kekefen01/article/details/86635538

版权

最近在整理自己之前学的一些东西，发现生信的知识点多而乱，想写点东西。
本来在本科入学之前我是像爱因斯坦看齐，想当一个理论物理学家的，后来阴差阳错地做了生信。

生物信息学作为一个交叉学科，涉及到诸多领域的结合
我以前主要做的是高通量测序，最上游，需要了解测序的原理，了解测序生成的数据文件，了解比对软件的原理

有这几大块的内容需要了解学习
首先是测序的原理部分。不知道测序的原理不好预处理测序数据，预处理完数据之后开始用软件跑，跑完之后得到结果还得可视化，跑软件这块是最容易出问题的了，出了错要会解决BUG吧，一般都是google，但有些生信软件过于小众，只能自己去看源代码，所以会几门常用的脚本语言，python，perl，R等。最好精通一门。基本所有软件的运行环境都在linux下，你得会linux基本操作吧。有时候老师要让你做些独立的分析，就得学一些统计学知识。
除了这些，计算机基础知识也很重要（最基本的数据库得会用吧，sql要会）。
软件这块详细说说，软件生成的都是生信文件格式，常用的文件格式sam，bam，bed之类啊也需要了解，以及对应的小工具bedtools，samtools都得学会用。
4.数据的可视化。R里面的ggplot2，python的matplotlib得熟悉，为了操作数据data.table，pandas得学吧。

以下就是技术栈：
基础：python(pandas,matplotlib,biopython) perl R(ggplot2,data.table) linux sql
通用的分析流程：bedtools samtools IGV软件使用 bed sam vcf文件格式。hisat2 stringtie 分析差异基因流程。
然后是各领域的各种分析软件，比如做突变的就GATK,ANNOVAR。我做过PA-seq和环状RNA分析，又用不同的软件。还用过一些其他乱七八糟的软件WGCNA什么的。
基本的统计知识：数理统计，回归，常用机器学习方法等

事实上，高通量测序属于大数据分析，个人认为由于国内实验室经费的不足，样本量常常不足，比如一般来说RNAseq要求生物学重复为3个，但国内通常为2个，甚至没有重复的情况。以及国内大部分老师对实验设计环节的忽视，很难从中挖掘出一些有用可靠的结果。吐槽一下，做一件事情的有一大堆软件（水文章），mapping啊差异基因分析啊，为什么呢，因为没有金标准，条条大路通罗马，做出来的可信度又有多少呢。。这是算法和统计天生的不足吧。

想起了我更早以前做过的计算生物学，Modeller，autodock，NAMD。。。也都是不靠谱的东西。计算机还达不到这样的计算力。

写得比较乱，就当是吐槽吧。事实上，我研究生就是在帮老板跑跑程序，老板也不懂生信，都是自己学，心累。

谈谈做这行的前途吧：
1.科研服务：蛋糕稳定但有限
2.精准医疗和基因算命：目前还在天上乱飞，落地太难。
3.学术：学术大佬就不说了。。。