机器学习hierarchical clustering_(建议收藏)生信学习资料整理

368d23530e7f9bbca9b0cb0ff3be1555.png
以下整理是我个人几年来学习bioinformatics发现的“宝藏”生信学习资料,如果你对生信抱有强烈的兴趣,建议你没事的时候多刷一刷这些网站,系统性地培养生信的学科思维。

生信作为一门日新月异的学科,技术及指导思想更迭迅速;交叉学科的性质又使得入门生信变得困难。不管你是去买课还是看中文教程,精进生信的必经之路肯定少不了去看原始英文文档;除此之外,有许多优秀的网站为生信知识的传播做足了功夫,其质量之精美远远超过大部分中文互联网上的教程,而且难度编排十分友好,适合入门或进阶。

再次感谢这些前辈们的开源精神。

本文一共分为三大类:Tutorial(基础知识),Project(实战项目),tools(代码、算法、工具讲解)

一、Tutorial

  1. Galaxy Training:
Galaxy Training​training.galaxyproject.org
006cf164287274ed3965206ce41c6a37.png

9ea6fc67b982ac14a35c13cf7cbded96.png
按照topic,分门别类存放如表观遗传学、转录组学等相关的生信分析基础知识

比如进入"transcriptomics"-"understanding barcodes"

3d3c849f7eb7da2ae8789e34e479c8c7.png
单细胞组学分析的数据基础

2. 清华大学鲁志老师实验室学习资料:

Bioinformatics Tutorials​lulab.gitbook.io
054638b2ae8abf064ddba17bbc478958.png

鲁志老师是清华大学生命科学学院教授,我曾在夏令营和他交流过,为人和蔼,学术水平高,非常关心学生的发展。

鲁志:博士生导师,教育部“新世纪人才计划”获得者;(详情见清华大学生命科学学院官网)

该tutorial基本涵盖了生信的大部分话题,非常适合小白系统入门,也可以作为工具书,随查随用。除了基础的NGS分析,该教程还提供了详实的关于Machine learning入门的学习资料,以及关于Machine learning应用到生物信息分析中的案例。

bfe495634fb92f5607978dfb83dbfee5.png

除了基础知识,鲁老师的教程还提供了数据,下载docker(教程开头有对应的指导)相关的Image,启用docker便可以自己实操分析数据。

ecc75d440600d1803b42607843194e3e.png

3. Genomicsclass: 十分综合的一个教程,涵盖线性代数等数学基础、机器学习、常见组学分析数据处理(如batch effect)以及统计检验理论等到,适合作为工具书

PH525x series - Biomedical Data Science​genomicsclass.github.io

98fb0df885f69d82d60b7ccbe9b57190.png
部分目录

0ffe7b4ed2f7e08f0d2deefeeed80290.png
批处理的讲解

二、 Project

1. Bioconductor: 做生信怎么可能少得了大名鼎鼎的bioconductor, 里面的教程质量也是杠杠的,大多是围绕一个话题讲解一个包的使用。可以以项目为基础学习很多优秀的包处理技巧。

Bioconductor - Courses and Conferences​bioconductor.org

比如,搜索"RNA-seq",点击

https://bioconductor.github.io/BiocWorkshops/analysis-of-single-cell-rna-seq-data-dimensionality-reduction-clustering-and-lineage-inference.html​bioconductor.github.io

The Bioconductor 2018 Workshop Compilation

https://bioconductor.github.io/BiocWorkshops/analysis-of-single-cell-rna-seq-data-dimensionality-reduction-clustering-and-lineage-inference.html​bioconductor.github.io

b902a57e1de1c28abde3c3f79894a509.png
从讲解到数据再到代码,十分详细

2. 接下来是几个著名的机构:Sanger Institute & Broad Institute

https://scrnaseq-course.cog.sanger.ac.uk/website/index.html​scrnaseq-course.cog.sanger.ac.uk https://broadinstitute.github.io/2019_scWorkshop/index.html​broadinstitute.github.io

8464abaeea2b306989e8c5663e788dfc.png

如果你毫无项目经验,强烈建议你在掌握一定生信基础后,按照以上几个流程完整地跑一遍,在这个过程你会学会:如何配置环境,如何安装软件,如何根据文档学会软件的使用,下载数据,分析数据,如何验证分析的结论,如何把计算结果可视化等等。只有完整地分析下来,才能真正算跨入了生信的大门。

3. 加拿大生物信息中心:

https://bioinformaticsdotca.github.io/​bioinformaticsdotca.github.io

从甲基化分析到转录组、宏基因组,再到网络分析等等,涵盖面比较广,不仅配套教程,还有相应的视频(youtube),缺点是数据难以直接下载。

5f467f2837aeb21ff713442e0f542aa6.png

三、tools

  1. JHU的Langmead-lab, 同时他也是bowtie2的作者

96b54d4e844d80c6598392546b88bfda.png
只有膜拜的份儿)

91859a55138b430d18afc8ef26b39f43.png
比对算法过程中的部分代码及算法讲解

b9a06a3be597925b89e63b5f70e3de4b.png
代码大部分是以jupyter文档形式展现

如果你对比对、拼接算法感兴趣的话,可以看看这门课,写一个小的比对软件:

https://www.coursera.org/course/ads1​www.coursera.org

2. 哈佛FAS:

Harvard FAS Informatics​informatics.fas.harvard.edu

有许多软件的tutorial,如grep,baw, trinity 以及R的进阶操作

0dec5610539ab85dd6663916367b2baf.png

3. Rosalind,很著名的一个生信刷题网站;包括了许多生信基础操作,比如处理fasta文件等等

ROSALIND | Problems | Locations​rosalind.info

4. 如果你想进阶R语言:

https://github.com/sienkie/R_for_data_science/blob/master/R_for_data_science.Rmd​github.com

tidyverse流处理,将大大提高效率,可以说是R数据科学的进阶的必经之路。

写在最后

本文将持续不断更新,欢迎大家一起共享优质资源,共同为开源社区出力~

生信资源不在于多而在于精,笔者本人也从未从头到尾看完过这些教程,不过是遇到问题了随时翻阅——每每回味,颇有益处.

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值