接触一段时间的蛋白质组的生物信息数据处理,我认为有三个方面技能是学习生物信息必备的。
1 编程技能,包括以下几种技能。
(1)用R语言做统计与数据可视化。
(2)python做数据处理,代码更简洁一点。
(3)Linux系统,目前主要用Maxquant 软件在Linux 系统搜库。
(4)Matlab接触不多,也有人用这个软件处理质谱数据。
2 数学与算法。数据挖掘的下限是编程技能,上限是数学能力。包括以下技能:
(1)高等代数。最近在看《线性代数的几何意义》,通俗易懂。其他书籍需要慢慢啃。
(2)概率论与数理统计。
(3)深一点的理论,比如李航的《统计学习方法》和周志航《机器学习》。
(4)未完待续。。。
3 业务能力。需要一定生物背景,能综合运用前两种能力(编程和数学)建立一个完整的数据分析流程。如何提出生物问题,如何解决生物问题,需要长时间的积累。