CHIP-seq 分析笔记

最新推荐文章于 2024-06-06 10:57:11 发布

samhuairen

最新推荐文章于 2024-06-06 10:57:11 发布

阅读量4.1k

点赞数 6

分类专栏：生物信息-明天的方向

本文链接：https://blog.csdn.net/samhuairen/article/details/88718431

版权

本周学习一下CHIP-seq。并根据网上的教程，自己实践一下，一方面是要为了弄清楚什么是chip-seq, 这个技术有什么用，另一个方面是想学习一下这个技术如何来实践，本文参考的文章主要来自生信技能树，以及简书上的其他作者写的教程，由于每个人在做分析时，使用的操作系统不一样，所以网上的代码在自己的电脑上进行运行的时候经常出现问题，这需要每个人针对自己的情况进行分析和总结。本次分析采用的系统是MACos 10.12.6。

先不谈CHIP-seq 的原理，因为我正在学习中，后期将这部分内容补上。先根据文献提供的数据和网上的代码进行实际操作。

CHIP-seq能干什么？

明确每一类组蛋白或者转录因子在整个基因组上结合基因的位置
如果比较多个组蛋白在亚基，可以看这些亚基之间在基因组上结合的基因的包含关系，即用韦恩图展示这些组蛋白结合基因相互之间是否包含。
检查每一类组蛋白结合基因在TSS上的位置。
检查每一组（不同组蛋白之间结合相同的基因）在TSS上的位置。（这样可以看出缺少某一类组蛋白之后，基因是否表达，验证这个组蛋白具有的功能和意义）
不同组蛋白结合基因的功能（GO），及参与的代谢通路（KEGG）
可以研究每一个组蛋白targets 的基因的表达

第一步：从NCBI下载数据，并解压到本地电脑。从NCBI的GEO dataset 中输入作者上传的GEO号码GSE42466,如下图所示：

在本文文章的哪里打对勾，并进入，之后看一看到文章的具体信息，包括作者的信息，以及实验方法，实验设计，实验上传的具体数据编号。如下所示：

在最后的一栏中找到本数据的SRA号码，点击进入，如下：

在上面作者提供的6个数据上打上对勾，并在右上侧的send to 这个框中选择file, 在format 中选择 runinfo. 点击生成文件，即可生成下载的文件，这个是个excel文件，包含了具体run的信息，我们需要的是run 的ID号码，打开EXCEL文件，并在download 那一列获取SRA号SRR620204。这个号码用于下载。代码如下：

prefetch SRR620204

如果批量下载，则将上面的文件编号存放到一个文本文章中，如 sradata.txt ,下载代码如下：

prefetch --option-file sradata.txt #install prefetch first before run the code

之后用fastq-dump 软件进行解压，如下：

ls *sra |while read id; do fastq-dump –split-3 $id;done # --split-3的目的是如果文件包含两个以上文件，则分别命名，如果是一个文件则直接是文件原名，而不是根据reads 来进行拆分

以上可以获得本实验的的所有数据，但是在实际操作中，SRR620207一致下载不下来，原因不知道。我暂且不比对此文件，在后期使用作者提供的文件。

第二步：对原始数据进行质控，采用fastqc, multiqc 两个软件， fastqc对每个文件进行质控分析， multiqc对fastqc的结果进行整合，方便读者从总体上对数据质量进行把控。

ls *.fastq |while read id; do fastqc -t 3 $id; done 
multiqc *fastqc.zip --pdf # multiqc 在我的电脑山无法生成PDF，虽然我按照说明书安装了pandoc, latex. 但依然不行.

根据multiqc的质控显示，本测序数据在3’端的数据质量不高，fastqc 也显示警告，原因是平均的碱基质量有点低，如下图所示：

最低0.47元/天解锁文章

samhuairen

关注

6
点赞
踩
34

收藏

觉得还不错? 一键收藏
2
评论
CHIP-seq 分析笔记

本周学习一下CHIP-seq。并根据网上的教程，自己实践一下，一方面是要为了弄清楚什么是chip-seq, 这个技术有什么用，另一个方面是想学习一下这个技术如何来实践，本文参考的文章主要来自生信技能树，以及简书上的其他作者写的教程，由于每个人在做分析时，使用的操作系统不一样，所以网上的代码在自己的电脑上进行运行的时候经常出现问题，这需要每个人针对自己的情况进行分析和总结。本次分析采用...
复制链接

扫一扫