CHIP-seq 分析笔记

 

本周学习一下CHIP-seq。 并根据网上的教程,自己实践一下, 一方面是要为了弄清楚什么是chip-seq, 这个技术有什么用,另一个方面是想学习一下这个技术如何来实践, 本文参考的文章主要来自生信技能树,以及简书上的其他作者写的教程,由于每个人在做分析时,使用的操作系统不一样,所以网上的代码在自己的电脑上进行运行的时候经常出现问题,这需要每个人针对自己的情况进行分析和总结。 本次分析采用的系统是MACos 10.12.6。 

先不谈CHIP-seq 的原理, 因为我正在学习中,后期将这部分内容补上。先根据文献提供的数据和网上的代码进行实际操作。

CHIP-seq能干什么?

  1. 明确每一类组蛋白或者转录因子在整个基因组上结合基因的位置
  2. 如果比较多个组蛋白在亚基,可以看这些亚基之间在基因组上结合的基因的包含关系,即用韦恩图展示这些组蛋白结合基因相互之间是否包含。
  3. 检查每一类组蛋白结合基因在TSS上的位置。
  4. 检查每一组(不同组蛋白之间结合相同的基因)在TSS上的位置。(这样可以看出缺少某一类组蛋白之后,基因是否表达,验证这个组蛋白具有的功能和意义)
  5. 不同组蛋白结合基因的功能(GO),及参与的代谢通路(KEGG)
  6. 可以研究每一个组蛋白targets 的基因的表达

第一步:从NCBI下载数据,并解压到本地电脑。 从NCBI的GEO dataset 中输入作者上传的GEO号码GSE42466,如下图所示:

在本文文章的哪里打对勾,并进入,之后看一看到文章的具体信息,包括作者的信息,以及实验方法,实验设计,实验上传的具体数据编号。如下所示:

在最后的一栏中找到本数据的SRA号码,点击进入,如下:

在上面作者提供的6个数据上打上对勾,并在右上侧的send to 这个框中选择file, 在format 中选择 runinfo. 点击生成文件,即可生成下载的文件,这个是个excel文件,包含了具体run的信息,我们需要的是run 的ID号码,打开EXCEL文件,并在download 那一列获取SRA号SRR620204。 这个号码用于下载。代码如下:

prefetch SRR620204

如果批量下载,则将上面的文件编号存放到一个文本文章中,如 sradata.txt ,下载代码如下:

prefetch --option-file sradata.txt #install prefetch first before run the code

之后用fastq-dump 软件进行解压,如下:

ls *sra |while read id; do fastq-dump –split-3 $id;done # --split-3的目的是如果文件包含两个以上文件,则分别命名,如果是一个文件则直接是文件原名,而不是根据reads 来进行拆分

以上可以获得本实验的的所有数据,但是在实际操作中,SRR620207一致下载不下来,原因不知道。 我暂且不比对此文件,在后期使用作者提供的文件。

第二步: 对原始数据进行质控,采用fastqc, multiqc 两个软件, fastqc对每个文件进行质控分析, multiqc对fastqc的结果进行整合,方便读者从总体上对数据质量进行把控。

ls *.fastq |while read id; do fastqc -t 3 $id; done 
multiqc *fastqc.zip --pdf # multiqc 在我的电脑山无法生成PDF,虽然我按照说明书安装了pandoc, latex. 但依然不行.

根据multiqc的质控显示,本测序数据在3’端的数据质量不高,fastqc 也显示警告,原因是平均的碱基质量有点低,如下图所示:

  • 6
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值