ChIP-seq笔记

最新推荐文章于 2024-08-18 09:00:00 发布

sunyu_03

最新推荐文章于 2024-08-18 09:00:00 发布

阅读量9.1k

点赞数 7

文章标签： ChIP-seq学习笔记

本文链接：https://blog.csdn.net/sunyu_03/article/details/82766641

版权

本文详细记录了ChIP-seq实验的全过程，包括数据下载、质量控制、比对到参考基因组、搜峰及峰注释、作图分析等步骤。通过实例介绍了bowtie2和MACS2的使用，并探讨了ChIP-seq在TSS区域的结合情况。适合初学者参考。

摘要由CSDN通过智能技术生成

文章目录

ChIP-seq学习

ChIP-seq学习

这是我第一次做ChIP-seq，将所有的步骤以及代码全部记录下来，如有错误欢迎大家指正。

chip-seq主要有四个步骤
Cross-linking（DNA和蛋白质交联）
Sonication（超声将染色体切割）
IP（利用抗原抗体的特异性识别）
Sequencing（测序）

（Linux操作系统CentOS）
流程图
在这里插入图片描述

1 数据下载

1.1 数据主要分为三个部分

（1）ivf GSE112546
（2）scnt GSE112546
（3）zyy GSE73952

1.2 从NCBI上下载数据

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145717/SRR7145717.sra #Morula.IVF.H3K27me3.Rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145718/SRR7145718.sra #Morula.IVF.H3K27me3.Rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145722/SRR7145722.sra #Morula.IVF.Input

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145719/SRR7145719.sra #Morula.SCNT.H3K27me3.Rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145720/SRR7145720.sra #Morula.SCNT.H3K27me3.Rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145721/SRR7145721.sra #Morula.SCNT.Input

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208744/SRR3208744.sra #MII Oocyte Input
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208749/SRR3208749.sra #MII Oocyte H3K27me3 rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208750/SRR3208750.sra #MII Oocyte H3K27me3 rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208751/SRR3208751.sra #MII Oocyte H3K27me3 rep3

ESC
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208788/SRR3208788.sra #ESC input
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208791/SRR3208791.sra #ESC H3K27me3 rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208792/SRR3208792.sra #ESC H3K27me3 rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208793/SRR3208793.sra #ESC H3K27me3 rep3
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208794/SRR3208794.sra #ESC H3K27me3 rep4

TSC
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208795/SRR3208795.sra #TSC input
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208799/SRR3208799.sra #TSC H3K27me3 rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208800/SRR3208800.sra #TSC H3K27me3 rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208801/SRR3208801.sra #TSC H3K27me3 rep3

2 质量控制

2.1 软件安装

#安装sratoolkit

wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz

#解压sratoolkit

tar -zxvf sratoolkit.2.9.2-centos_linux64.tar.gz

2.2 转化数据格式 sra ----- fastq

for i in *sra 
do
echo $i
/data/sunyu/h3k27/sratoolkit/sratoolkit.2.9.2-centos_linux64/bin/fastq-dump --split-3 $i; 
done

2.3 下载小鼠参考基因组的index

wget -c "ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip" &```
unzip mm10.zip

2.4 质量检测

for i in *fastq
do
fastqc -t 4 $i
done

2.5 质控结果批量查看

multiqc *fastqc.zip --export

如果没有添加环境变量可采用一下方法

export PATH=$PATH:/data/sunyu/anaconda2/bin
multiqc *fastqc.zip --export

##trimmomatic

安装 trimmomatic

wget -c http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip &
unzip Trimmomatic-0.38.zip

2.6 数据清理

-threads 设置多线程运行

java -jar /data/sunyu/h3k27/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar SE -threads 10 -phred33 SRR7145717.fastq output_SRR7145717.fastq ILLUMINACLIP:/data/sunyu/h3k27/trimmomatic/Trimmomatic-0.38/adapters/TruSeq3-SE.fa:2:30:10 TRAILING:4 HEADCROP:15 MINLEN:36

在数据清理的过程中存在两个模式
单末端 SE

java -jar /path/Trimmomatic/trimmomatic-0.36.jar SE -phred33 -trimlog se.logfile raw_data/untreated.fq out.untreated.fq.gz ILLUMINACLIP:/path/Trimmomatic/adapters/TruSeq3-SE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50

和双末端 PE

java -jar /path/Trimmomatic/trimmomatic-0.36.jar PE -phred33 -trimlog logfile reads_1.fq.gz reads_2.fq.gz out.read_1.fq.gz out.trim.read_1.fq.gz out.read_2.fq.gz out.trim.read_2.fq.gz ILLUMINACLIP:/path/Trimmomatic/adapters/TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50

如果大家想要了解更多数据质控给大家推荐个连接
https://zhuanlan.zhihu.com/p/28802083

语句	说明
ILLUMINACLIP	去接头
adapters	Exome.fa ：adapter 序列的 fasta 文件
2	16 个碱基长度的种子序列中可以有 2 个错配
30	采用回文模式时匹配得分至少为30 (约50个碱基)
10	采用简单模式时匹配得分至少为10 (约17个碱基)
ILLUMINACLIP	“$adapter”/Exome.fa:2:30:10 \
LEADING:3	从序列的开头开始去掉质量值小于 3 的碱基；
TRAILING:3	从序列的末尾开始去掉质量值小于 3 的碱基；
SLIDINGWINDOW:4:15	从 5’ 端开始以 4 bp 的窗口计算碱基平均质量，
如果此平均值低于 15	则从这个位置截断 read；
HEADCROP	在reads的首端切除指定的长度；
MINLEN:36	如果 reads 长度小于 36 bp 则扔掉整条 read。