什么是snakemake
官网地址:https://snakemake.readthedocs.io/en/stable/
使用snakemake的好处
process data with the same pipeline
自动生成拓扑图
ATAC-seq 基本原理
ATAC-seq基本原理
image.png
每个核小体上可以缠绕146-147bp的DNA,大概缠绕两圈左右,但是在核小体上并不是所有的组蛋白都有DNA缠绕;
有些地方转录比较活跃,chromatin accessibility 染色质可接近性比较大,那么这些裸露的DNA的转录活性高;
此时,我们可以用Tn5这种酶,这种酶就可以通过链置换反应,直接把测序建库的接头adapter直接就添加到裸露的DNA上,简单来说就是Tn5把裸露的DNA链打断,并通过链置换反应加上测序建库需要的adapter。
然后再对整个基因组测序,就能够捕获这样的信号,通过mapping到genome上,就知道哪一段DNA序列是裸露的了。
因为越裸露的区域,最终捕获的reads数目就越多。
如果某一段DNA紧紧地缠绕在核小体周围,那它基本上就是没有信号的。
那最后我们通过鉴定atac-seq的峰在哪里,我们就可以知道染色质哪里是比较开放的。
image.png
那么一个基因如果处于开放染色质,那么这个基因就是高表达的;
那么如果是一个promoter在开放空间的话,那么它就很可能导致下游的基因高表达;
那么如果是一个enhancer在atac-seq信号比较弱的区域,那么它可能不太可能发生近端的相互作用;
ATAC-seq的数据分析pipeline
image.png
1. 去除接头,cutadapt;
2. 对于切除adapter的fastq文件,我们需要使用类似于bowtie2的软件去mapping到参考基因组上;
3. 把比对完的结果要进行排序,并把它记录成BAM文件;
4. 对BAM文件进行remove PCR duplication;
5. 找peak,peak calling
snakemake基础教学与上机实践