问题1:详细步骤
在 Figure 1D 中,作者通过G4 CUT&Tag 技术展示了 G-quadruplex (G4) 结构在基因组中特定区域的覆盖情况。为了获得这个图像,作者使用了以下过程:
1. 参考基因组:
- 使用了 hg19 人类基因组作为参考基因组(2021_CutTag_G4mapping)。
2. 实验设计:
- 使用 G4 CUT&Tag 技术,通过特异性识别 G-quadruplex 的 BG4 抗体与转座酶相结合,捕获 G4 结构的 DNA 片段。该实验在不同细胞系中进行,如 HEK293T 和 HaCaT 细胞(2021_CutTag_G4mapping)。
3. 数据处理:
- 比对:使用 Bowtie2 工具将测序读数比对到参考基因组 hg19 上(2021_CutTag_G4mapping)。
- 数据清理:使用 samtools 生成 BAM 文件,并使用 picard 去除重复读数(2021_CutTag_G4mapping)。
- 过滤黑名单区域:使用 bedtools 移除 ENCODE 项目中定义的黑名单区域,这些区域通常是低复杂度或易误比对的区域(2021_CutTag_G4mapping)。
4. 生成覆盖度图:
- 使用 deepTools 的
bamCoverage
工具生成标准化的覆盖度文件 (BigWig),参数设置为 RPGC 标准化(每个基因组覆盖度为 1x);其中binSize 设置为 5,以生成每 5 个碱基对的覆盖度数据,这样可以得到精细的覆盖图(2021_CutTag_G4mapping)。
5. 图像可视化:
- 在 SeqPlots 和其他工具(如 wigglescout R库)中,作者可视化了这些覆盖度数据,生成了覆盖 G4 区域的图像(2021_CutTag_G4mapping)。
通过这些步骤,作者得到了 Figure 1D 中的图像,该图显示了不同实验中 G4 结构在基因组特定区域的覆盖情况,尤其是在人类细胞的 G4 信号的分布和强度。
问题2:文章步骤
图D是G4 CUT&Tag和G4 ChIP-seq在HaCaT细胞中的比较示例,以及G4 CUT&Tag和G4P-ChIP在HEK293T细胞中的比较示例。这些图片展示了G4 CUT&Tag和现有方法(G4 ChIP-seq和G4P-ChIP)在基因组上的信号分布。
图片展示了G4 CUT&Tag和现有方法在不同细胞系中的信号强度和分布,从而可以直观地比较这些方法的性能。
这段文字描述了对 G4 和 R-loop CUT&Tag 数据进行处理和分析的详细工作流程。以下是每个步骤的具体操作解释:
1. 比对序列读取数据
- 使用 Bowtie2 (v.2.3.5.1) 进行比对:首先,使用 Bowtie2 工具将测序读取的数据(reads)比对到参考基因组(如 mm9 或 hg19)。这一步旨在将测序得到的片段精确地映射到基因组上。
- 去除接头序列:通过设置
-5 19
参数,剪切掉测序读取的前 19 个碱基对(通常是接头序列)。这确保了比对数据的质量,不受接头序列的干扰。
conda install -c bioconda bowtie2=2.3.5.1 #安装
bowtie2 -x reference_genome -U input_reads.fastq -S output.sam -5 19 #使用
2. 生成 BAM 文件
- 使用 Samtools (v1.10):比对结果存储为 BAM 文件,BAM 是一种压缩格式,包含了比对后的读取信息。这种格式方便后续的数据处理。
3. 去除重复区域
- 使用 Picard (v2.23.4) 的 MarkDuplicates 工具:去除 BAM 文件中重复的测序读取。这一步是为了排除 PCR 扩增过程中产生的重复片段,确保数据的唯一性和准确性。
4. 移除基因组黑名单区域
- 使用 Bedtools (v2.29.2) 和 ENCODE 黑名单文件:使用 ENCODE 提供的黑名单
.bed
文件,将比对结果中位于黑名单区域(即在实验中经常产生高背景噪音的区域)的数据去除。通过 Bedtools 的intersect
命令,将这些不可靠的区域从 BAM 文件中移除。
5. 标准化生成覆盖度文件
- 使用 deepTools (v3.3.2) 的 bamCoverage 工具:使用
bamCoverage
工具生成标准化的覆盖度轨迹(BigWig 文件),这些文件可以用于可视化基因组上每个区域的测序覆盖度。 - 参数设置:
--binSize 5
:每 5 个碱基对计算一次覆盖度,以生成精细的覆盖图。--normalizeUsing RPGC
:使用 RPGC 标准化方法(基因组覆盖度为 1x),确保不同样本之间的覆盖度数据可以直接比较。--effectiveGenomeSize
:设置对应参考基因组的有效基因组大小。
6. 峰值调用
- 使用 MACS2 (v2.2.6) 进行峰值调用:利用 MACS2 软件对 CUT&Tag 数据进行峰值检测,确定基因组上富集的 G4 或 R-loop 结构的区域。
7. 高置信度峰值集
- 使用 Bedtools 合并重复实验的峰值:为了确保峰值的可靠性,使用 Bedtools 的
intersect
命令合并三个重复实验(G4)或两个重复实验(R-loop)的峰值,生成高置信度的峰值集。
8. 绘制 Venn 图
- 使用 R 包 VennDiagram:将不同重复实验的峰值重叠区域通过 Venn 图进行可视化,展示不同条件下的峰值共现情况。
9. 统计学显著性测试
- 使用 GSuite HyperBrowser (v2.1.3):通过 Monte Carlo FDR (假发现率)测试,评估峰值集合间的重叠显著性。这个测试可以确认不同数据集之间的峰值重叠是否具备统计学意义。
总结:
这段文字描述了一个完整的 CUT&Tag 数据处理流程,涵盖了数据比对、去除重复、移除黑名单区域、生成标准化覆盖度图、峰值调用、高置信度峰值的确认和统计测试等步骤。整个流程是为了确保数据的准确性、可重复性以及分析结果的可靠性。
实际操作
①下载sra测序数据转为fastq文件
fastq-dump SRRxxxxxx # 将 SRA 文件转为 FASTQ 文件
fasterq-dump SRRxxxxxx #比 fastq-dump 更快速的工具,适用于大数据集。
检查fastq文件格式
②下载hg38
wget https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
gunzip hg38.fa.gz #解压下载的fasta文件
samtools faidx hg38.fa #为fasta文件建立索引
less hg38.fa #查看fasta文件
检查fasta文件格式
③从hg38截取参考序列
samtools faidx hg38.fa chr20:2652733-2652753 > chr20_NOP56_tag.fa
④使用bwa将测序数据和参考序列比对
bwa index chr20_NOP56_tag.fa # 为 NOP56 序列建立索引
bwa mem -t 24 chr20_NOP56_tag.fa SRRxxxxxx.fastq > SRRxxxxxx_chr20_NOP56_tag.sam # 将 FASTQ 数据比对到 NOP56中的序列
⑤sam文件排序生成bam文件并索引
samtools sort -@ 8 -o SRR_NOP56_sorted.bam SRR_NOP56.sam #其中8代表所使用的线程数
samtools index SRR14879760_chr20_sorted.bam #为bam文件建立索引
⑥使用picard 去除《重复数据》
使用conda创建一个虚拟环境,在该虚拟环境中安装picard
picard MarkDuplicates I=input.bam O=output.bam M=marked_dup_metrics.txt
⑦使用 bedtools 移除 ENCODE 项目中定义的《黑名单区域》
这里的黑名单区域指的是适用于 hg19 基因组版本的 ENCODE 黑名单区域的 bed 文件,先去encode中下载黑名单区域的bed文件
bedtools intersect -v -a your_data.bam -b hg19-blacklist.bed > filtered_data.bam
⑧生成覆盖度文件
这里的effectiveGenomeSize指的是有效基因组大小,
指的是在测序分析中用于正常化的基因组的可测序区域的总长度(以碱基对为单位)。有效基因组大小与基因组的物理大小不同,通常排除了重复序列、未测序区域、基因组黑名单区域等不可测序或不可靠的区域。对于人类基因组,常见的基因组版本的有效基因组大小如下:
- hg19: 2,733,156,957 bp
- hg38: 2,916,115,550 bp
bamCoverage -b SRR14879760_chr20_NOP56_sorted.bam -o SRR14879760_chr20_NOP56_sorted.bw --normalizeUsing RPGC --effectiveGenomeSize 2914744149 --binSize 5