ChIP-seq笔记

本文详细记录了ChIP-seq实验的全过程,包括数据下载、质量控制、比对到参考基因组、搜峰及峰注释、作图分析等步骤。通过实例介绍了bowtie2和MACS2的使用,并探讨了ChIP-seq在TSS区域的结合情况。适合初学者参考。
摘要由CSDN通过智能技术生成

ChIP-seq学习

这是我第一次做ChIP-seq,将所有的步骤以及代码全部记录下来,如有错误欢迎大家指正。

chip-seq主要有四个步骤
Cross-linking(DNA和蛋白质交联)
Sonication(超声将染色体切割)
IP(利用抗原抗体的特异性识别)
Sequencing(测序)

(Linux操作系统CentOS)
流程图
在这里插入图片描述

1 数据下载

1.1 数据主要分为三个部分

(1)ivf GSE112546
(2)scnt GSE112546
(3)zyy GSE73952

1.2 从NCBI上下载数据

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145717/SRR7145717.sra #Morula.IVF.H3K27me3.Rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145718/SRR7145718.sra #Morula.IVF.H3K27me3.Rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145722/SRR7145722.sra #Morula.IVF.Input

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145719/SRR7145719.sra #Morula.SCNT.H3K27me3.Rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145720/SRR7145720.sra #Morula.SCNT.H3K27me3.Rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR714/SRR7145721/SRR7145721.sra #Morula.SCNT.Input

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208744/SRR3208744.sra #MII Oocyte Input
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208749/SRR3208749.sra #MII Oocyte H3K27me3 rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208750/SRR3208750.sra #MII Oocyte H3K27me3 rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208751/SRR3208751.sra #MII Oocyte H3K27me3 rep3

ESC
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208788/SRR3208788.sra #ESC input
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208791/SRR3208791.sra #ESC H3K27me3 rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208792/SRR3208792.sra #ESC H3K27me3 rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208793/SRR3208793.sra #ESC H3K27me3 rep3
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208794/SRR3208794.sra #ESC H3K27me3 rep4

TSC
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208795/SRR3208795.sra #TSC input
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208799/SRR3208799.sra #TSC H3K27me3 rep1
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208800/SRR3208800.sra #TSC H3K27me3 rep2
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR320/SRR3208801/SRR3208801.sra #TSC H3K27me3 rep3


2 质量控制

2.1 软件安装

#安装sratoolkit

wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz

#解压sratoolkit

tar -zxvf sratoolkit.2.9.2-centos_linux64.tar.gz

2.2 转化数据格式 sra ----- fastq

for i in *sra 
do
echo $i
/data/sunyu/h3k27/sratoolkit/sratoolkit.2.9.2-centos_linux64/bin/fastq-dump --split-3 $i; 
done

2.3 下载小鼠参考基因组的index

wget -c "ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip" &```
unzip mm10.zip 

2.4 质量检测

for i in *fastq
do
fastqc -t 4 $i
done

2.5 质控结果批量查看

multiqc *fastqc.zip --export 

如果没有添加环境变量可采用一下方法

export PATH=$PATH:/data/sunyu/anaconda2/bin
multiqc *fastqc.zip --export 

##trimmomatic

安装 trimmomatic

wget -c http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip &
unzip Trimmomatic-0.38.zip

2.6 数据清理

-threads 设置多线程运行

java -jar /data/sunyu/h3k27/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar SE -threads 10 -phred33 SRR7145717.fastq output_SRR7145717.fastq ILLUMINACLIP:/data/sunyu/h3k27/trimmomatic/Trimmomatic-0.38/adapters/TruSeq3-SE.fa:2:30:10 TRAILING:4 HEADCROP:15 MINLEN:36

在数据清理的过程中存在两个模式
单末端 SE

java -jar /path/Trimmomatic/trimmomatic-0.36.jar SE -phred33 -trimlog se.logfile raw_data/untreated.fq out.untreated.fq.gz ILLUMINACLIP:/path/Trimmomatic/adapters/TruSeq3-SE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50

和双末端 PE

java -jar /path/Trimmomatic/trimmomatic-0.36.jar PE -phred33 -trimlog logfile reads_1.fq.gz reads_2.fq.gz out.read_1.fq.gz out.trim.read_1.fq.gz out.read_2.fq.gz out.trim.read_2.fq.gz ILLUMINACLIP:/path/Trimmomatic/adapters/TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50

如果大家想要了解更多数据质控给大家推荐个连接
https://zhuanlan.zhihu.com/p/28802083

语句 说明
ILLUMINACLIP 去接头
adapters Exome.fa :adapter 序列的 fasta 文件
2 16 个碱基长度的种子序列中可以有 2 个错配
30 采用回文模式时匹配得分至少为30 (约50个碱基)
10 采用简单模式时匹配得分至少为10 (约17个碱基)
ILLUMINACLIP “$adapter”/Exome.fa:2:30:10 \
LEADING:3 从序列的开头开始去掉质量值小于 3 的碱基;
TRAILING:3 从序列的末尾开始去掉质量值小于 3 的碱基;
SLIDINGWINDOW:4:15 从 5’ 端开始以 4 bp 的窗口计算碱基平均质量,
如果此平均值低于 15 则从这个位置截断 read;
HEADCROP 在reads的首端切除指定的长度;
MINLEN:36 如果 reads 长度小于 36 bp 则扔掉整条 read。

3 对比到参考基因组

3.1 bowtie2

3.1.1 首先
Chip-seq(Chromatin Immunoprecipitation Sequencing)是一种常用的表观遗传学研究方法,用于研究染色质上的蛋白质与DNA相互作用的情况。Chip-seq数据分析是指对Chip-seq实验所得到的大量序列数据进行处理和分析,以获得有关染色质状态和蛋白质相互作用的信息。 Chip-seq数据分析的主要步骤包括: 1. 数据质量控制:对原始数据进行质量控制,筛除低质量序列和序列中的适配器等。 2. 数据预处理:将序列比对到参考基因组上,去除重复的序列,调整序列长度,以便于后续分析。 3. 峰识别:利用统计方法识别出与某种蛋白质结合区域的“峰”,即ChIP信号显著高于背景水平的区域。 4. 峰注释:将峰与生物信息学数据库中的基因、转录因子结合位点等信息进行注释,以获得与研究对象相关的生物信息学特征。 5. 峰差异分析:比较不同实验条件下的Chip-seq数据,寻找峰的差异,以发现不同生物学过程中基因调控的差异。 6. 通路分析:将差异的峰与生物通路、转录因子网络等生物信息学数据库进行匹配,以发现与研究对象相关的生物通路和机制。 7. 结果可视化:将Chip-seq数据分析的结果可视化,如制作热图、曲线图等,以直观表达Chip-seq数据的生物学意义。 总之,Chip-seq数据分析是一个复杂的过程,需要熟练掌握多种分析方法和工具,以便于从大量的序列数据中提取有用的生物学信息。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值