本周学习一下CHIP-seq。 并根据网上的教程,自己实践一下, 一方面是要为了弄清楚什么是chip-seq, 这个技术有什么用,另一个方面是想学习一下这个技术如何来实践, 本文参考的文章主要来自生信技能树,以及简书上的其他作者写的教程,由于每个人在做分析时,使用的操作系统不一样,所以网上的代码在自己的电脑上进行运行的时候经常出现问题,这需要每个人针对自己的情况进行分析和总结。 本次分析采用的系统是MACos 10.12.6。
先不谈CHIP-seq 的原理, 因为我正在学习中,后期将这部分内容补上。先根据文献提供的数据和网上的代码进行实际操作。
CHIP-seq能干什么?
- 明确每一类组蛋白或者转录因子在整个基因组上结合基因的位置
- 如果比较多个组蛋白在亚基,可以看这些亚基之间在基因组上结合的基因的包含关系,即用韦恩图展示这些组蛋白结合基因相互之间是否包含。
- 检查每一类组蛋白结合基因在TSS上的位置。
- 检查每一组(不同组蛋白之间结合相同的基因)在TSS上的位置。(这样可以看出缺少某一类组蛋白之后,基因是否表达,验证这个组蛋白具有的功能和意义)
- 不同组蛋白结合基因的功能(GO),及参与的代谢通路(KEGG)
- 可以研究每一个组蛋白targets 的基因的表达
第一步:从NCBI下载数据,并解压到本地电脑。 从NCBI的GEO dataset 中输入作者上传的GEO号码GSE42466,如下图所示:
在本文文章的哪里打对勾,并进入,之后看一看到文章的具体信息,包括作者的信息,以及实验方法,实验设计,实验上传的具体数据编号。如下所示:
在最后的一栏中找到本数据的SRA号码,点击进入,如下:
在上面作者提供的6个数据上打上对勾,并在右上侧的send to 这个框中选择file, 在format 中选择 runinfo. 点击生成文件,即可生成下载的文件,这个是个excel文件,包含了具体run的信息,我们需要的是run 的ID号码,打开EXCEL文件,并在download 那一列获取SRA号SRR620204。 这个号码用于下载。代码如下:
prefetch SRR620204
如果批量下载,则将上面的文件编号存放到一个文本文章中,如 sradata.txt ,下载代码如下:
prefetch --option-file sradata.txt #install prefetch first before run the code
之后用fastq-dump 软件进行解压,如下:
ls *sra |while read id; do fastq-dump –split-3 $id;done # --split-3的目的是如果文件包含两个以上文件,则分别命名,如果是一个文件则直接是文件原名,而不是根据reads 来进行拆分
以上可以获得本实验的的所有数据,但是在实际操作中,SRR620207一致下载不下来,原因不知道。 我暂且不比对此文件,在后期使用作者提供的文件。
第二步: 对原始数据进行质控,采用fastqc, multiqc 两个软件, fastqc对每个文件进行质控分析, multiqc对fastqc的结果进行整合,方便读者从总体上对数据质量进行把控。
ls *.fastq |while read id; do fastqc -t 3 $id; done
multiqc *fastqc.zip --pdf # multiqc 在我的电脑山无法生成PDF,虽然我按照说明书安装了pandoc, latex. 但依然不行.
根据multiqc的质控显示,本测序数据在3’端的数据质量不高,fastqc 也显示警告,原因是平均的碱基质量有点低,如下图所示: