ChIP-seq笔记

本文详细记录了ChIP-seq实验的全过程,包括数据下载、质量控制、比对到参考基因组、搜峰及峰注释、作图分析等步骤。通过实例介绍了bowtie2和MACS2的使用,并探讨了ChIP-seq在TSS区域的结合情况。适合初学者参考。
摘要由CSDN通过智能技术生成

ChIP-seq学习

这是我第一次做ChIP-seq,将所有的步骤以及代码全部记录下来,如有错误欢迎大家指正。

chip-seq主要有四个步骤
Cross-linking(DNA和蛋白质交联)
Sonication(超声将染色体切割)
IP(利用抗原抗体的特异性识别)
Sequencing(测序)

(Linux操作系统CentOS)
流程图
在这里插入图片描述

1 数据下载

1.1 数据主要分为三个部分

(1)ivf GSE112546
(2)scnt GSE112546
(3)zyy GSE73952

1.2 从NCBI上下载数据

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145717/SRR7145717.sra #Morula.IVF.H3K27me3.Rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145718/SRR7145718.sra #Morula.IVF.H3K27me3.Rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145722/SRR7145722.sra #Morula.IVF.Input

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145719/SRR7145719.sra #Morula.SCNT.H3K27me3.Rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145720/SRR7145720.sra #Morula.SCNT.H3K27me3.Rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145721/SRR7145721.sra #Morula.SCNT.Input

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208744/SRR3208744.sra #MII Oocyte Input
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208749/SRR3208749.sra #MII Oocyte H3K27me3 rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208750/SRR3208750.sra #MII Oocyte H3K27me3 rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208751/SRR3208751.sra #MII Oocyte H3K27me3 rep3

ESC
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208788/SRR3208788.sra #ESC input
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208791/SRR3208791.sra #ESC H3K27me3 rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208792/SRR3208792.sra #ESC H3K27me3 rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208793/SRR3208793.sra #ESC H3K27me3 rep3
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208794/SRR3208794.sra #ESC H3K27me3 rep4

TSC
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208795/SRR3208795.sra #TSC input
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208799/SRR3208799.sra #TSC H3K27me3 rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208800/SRR3208800.sra #TSC H3K27me3 rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208801/SRR3208801.sra #TSC H3K27me3 rep3


2 质量控制

2.1 软件安装

#安装sratoolkit

wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz

#解压sratoolkit

tar -zxvf sratoolkit.2.9.2-centos_linux64.tar.gz

2.2 转化数据格式 sra ----- fastq

for i in *sra 
do
echo $i
/data/sunyu/h3k27/sratoolkit/sratoolkit.2.9.2-centos_linux64/bin/fastq-dump --split-3 $i; 
done

2.3 下载小鼠参考基因组的index

wget -c "ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip" &```
unzip mm10.zip 

2.4 质量检测

for i in *fastq
do
fastqc -t 4 $i
done

2.5 质控结果批量查看

multiqc *fastqc.zip --export 

如果没有添加环境变量可采用一下方法

export PATH=$PATH:/data/sunyu/anaconda2/bin
multiqc *fastqc.zip --export 

##trimmomatic

安装 trimmomatic

wget -c http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip &
unzip Trimmomatic-0.38.zip

2.6 数据清理

-threads 设置多线程运行

java -jar /data/sunyu/h3k27/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar SE -threads 10 -phred33 SRR7145717.fastq output_SRR7145717.fastq ILLUMINACLIP:/data/sunyu/h3k27/trimmomatic/Trimmomatic-0.38/adapters/TruSeq3-SE.fa:2:30:10 TRAILING:4 HEADCROP:15 MINLEN:36

在数据清理的过程中存在两个模式
单末端 SE

java -jar /path/Trimmomatic/trimmomatic-0.36.jar SE -phred33 -trimlog se.logfile raw_data/untreated.fq out.untreated.fq.gz ILLUMINACLIP:/path/Trimmomatic/adapters/TruSeq3-SE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50

和双末端 PE

java -jar /path/Trimmomatic/trimmomatic-0.36.jar PE -phred33 -trimlog logfile reads_1.fq.gz reads_2.fq.gz out.read_1.fq.gz out.trim.read_1.fq.gz out.read_2.fq.gz out.trim.read_2.fq.gz ILLUMINACLIP:/path/Trimmomatic/adapters/TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50

如果大家想要了解更多数据质控给大家推荐个连接
https://zhuanlan.zhihu.com/p/28802083

语句 说明
ILLUMINACLIP 去接头
adapters Exome.fa :adapter 序列的 fasta 文件
2 16 个碱基长度的种子序列中可以有 2 个错配
30 采用回文模式时匹配得分至少为30 (约50个碱基)
10 采用简单模式时匹配得分至少为10 (约17个碱基)
ILLUMINACLIP “$adapter”/Exome.fa:2:30:10 \
LEADING:3 从序列的开头开始去掉质量值小于 3 的碱基;
TRAILING:3 从序列的末尾开始去掉质量值小于 3 的碱基;
SLIDINGWINDOW:4:15 从 5’ 端开始以 4 bp 的窗口计算碱基平均质量,
如果此平均值低于 15 则从这个位置截断 read;
HEADCROP 在reads的首端切除指定的长度;
MINLEN:36 如果 reads 长度小于 36 bp 则扔掉整条 read。

3 对比到参考基因组

3.1 bowtie2

3.1.1 首先
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值