比对生成view

问题1:详细步骤

Figure 1D 中,作者通过G4 CUT&Tag 技术展示了 G-quadruplex (G4) 结构在基因组中特定区域的覆盖情况。为了获得这个图像,作者使用了以下过程:

1. 参考基因组

  • 使用了 hg19 人类基因组作为参考基因组​(2021_CutTag_G4mapping)。

2. 实验设计

  • 使用 G4 CUT&Tag 技术,通过特异性识别 G-quadruplex 的 BG4 抗体与转座酶相结合,捕获 G4 结构的 DNA 片段。该实验在不同细胞系中进行,如 HEK293THaCaT 细胞​(2021_CutTag_G4mapping)。

3. 数据处理

  • 比对:使用 Bowtie2 工具将测序读数比对到参考基因组 hg19 上​(2021_CutTag_G4mapping)。
  • 数据清理:使用 samtools 生成 BAM 文件,并使用 picard 去除重复读数​(2021_CutTag_G4mapping)。
  • 过滤黑名单区域:使用 bedtools 移除 ENCODE 项目中定义的黑名单区域,这些区域通常是低复杂度或易误比对的区域​(2021_CutTag_G4mapping)。

4. 生成覆盖度图

  • 使用 deepToolsbamCoverage 工具生成标准化的覆盖度文件 (BigWig),参数设置为 RPGC 标准化(每个基因组覆盖度为 1x)​;其中binSize 设置为 5,以生成每 5 个碱基对的覆盖度数据,这样可以得到精细的覆盖图​(2021_CutTag_G4mapping)。

5. 图像可视化

  • SeqPlots 和其他工具(如 wigglescout R库)中,作者可视化了这些覆盖度数据,生成了覆盖 G4 区域的图像​(2021_CutTag_G4mapping)。

通过这些步骤,作者得到了 Figure 1D 中的图像,该图显示了不同实验中 G4 结构在基因组特定区域的覆盖情况,尤其是在人类细胞的 G4 信号的分布和强度。

问题2:文章步骤

图D是G4 CUT&Tag和G4 ChIP-seq在HaCaT细胞中的比较示例,以及G4 CUT&Tag和G4P-ChIP在HEK293T细胞中的比较示例。这些图片展示了G4 CUT&Tag和现有方法(G4 ChIP-seq和G4P-ChIP)在基因组上的信号分布。

图片展示了G4 CUT&Tag和现有方法在不同细胞系中的信号强度和分布,从而可以直观地比较这些方法的性能。

这段文字描述了对 G4 和 R-loop CUT&Tag 数据进行处理和分析的详细工作流程。以下是每个步骤的具体操作解释:

1. 比对序列读取数据

  • 使用 Bowtie2 (v.2.3.5.1) 进行比对:首先,使用 Bowtie2 工具将测序读取的数据(reads)比对到参考基因组(如 mm9 或 hg19)。这一步旨在将测序得到的片段精确地映射到基因组上。
  • 去除接头序列:通过设置 -5 19 参数,剪切掉测序读取的前 19 个碱基对(通常是接头序列)。这确保了比对数据的质量,不受接头序列的干扰。
conda install -c bioconda bowtie2=2.3.5.1 #安装
bowtie2 -x reference_genome -U input_reads.fastq -S output.sam -5 19 #使用

2. 生成 BAM 文件

  • 使用 Samtools (v1.10):比对结果存储为 BAM 文件,BAM 是一种压缩格式,包含了比对后的读取信息。这种格式方便后续的数据处理。

3. 去除重复区域

  • 使用 Picard (v2.23.4) 的 MarkDuplicates 工具:去除 BAM 文件中重复的测序读取。这一步是为了排除 PCR 扩增过程中产生的重复片段,确保数据的唯一性和准确性。

4. 移除基因组黑名单区域

  • 使用 Bedtools (v2.29.2) 和 ENCODE 黑名单文件:使用 ENCODE 提供的黑名单 .bed 文件,将比对结果中位于黑名单区域(即在实验中经常产生高背景噪音的区域)的数据去除。通过 Bedtools 的 intersect 命令,将这些不可靠的区域从 BAM 文件中移除。

5. 标准化生成覆盖度文件

  • 使用 deepTools (v3.3.2) 的 bamCoverage 工具:使用 bamCoverage 工具生成标准化的覆盖度轨迹(BigWig 文件),这些文件可以用于可视化基因组上每个区域的测序覆盖度。
  • 参数设置
    • --binSize 5:每 5 个碱基对计算一次覆盖度,以生成精细的覆盖图。
    • --normalizeUsing RPGC:使用 RPGC 标准化方法(基因组覆盖度为 1x),确保不同样本之间的覆盖度数据可以直接比较。
    • --effectiveGenomeSize:设置对应参考基因组的有效基因组大小。

6. 峰值调用

  • 使用 MACS2 (v2.2.6) 进行峰值调用:利用 MACS2 软件对 CUT&Tag 数据进行峰值检测,确定基因组上富集的 G4 或 R-loop 结构的区域。

7. 高置信度峰值集

  • 使用 Bedtools 合并重复实验的峰值:为了确保峰值的可靠性,使用 Bedtools 的 intersect 命令合并三个重复实验(G4)或两个重复实验(R-loop)的峰值,生成高置信度的峰值集。

8. 绘制 Venn 图

  • 使用 R 包 VennDiagram:将不同重复实验的峰值重叠区域通过 Venn 图进行可视化,展示不同条件下的峰值共现情况。

9. 统计学显著性测试

  • 使用 GSuite HyperBrowser (v2.1.3):通过 Monte Carlo FDR (假发现率)测试,评估峰值集合间的重叠显著性。这个测试可以确认不同数据集之间的峰值重叠是否具备统计学意义。

总结:

这段文字描述了一个完整的 CUT&Tag 数据处理流程,涵盖了数据比对、去除重复、移除黑名单区域、生成标准化覆盖度图、峰值调用、高置信度峰值的确认和统计测试等步骤。整个流程是为了确保数据的准确性、可重复性以及分析结果的可靠性。

实际操作

①下载sra测序数据转为fastq文件

fastq-dump SRRxxxxxx  # 将 SRA 文件转为 FASTQ 文件
fasterq-dump SRRxxxxxx #比 fastq-dump 更快速的工具,适用于大数据集。

检查fastq文件格式

②下载hg38

wget https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
gunzip hg38.fa.gz #解压下载的fasta文件
samtools faidx hg38.fa #为fasta文件建立索引
less hg38.fa #查看fasta文件

检查fasta文件格式

③从hg38截取参考序列

samtools faidx hg38.fa chr20:2652733-2652753 > chr20_NOP56_tag.fa

④使用bwa将测序数据和参考序列比对

bwa index chr20_NOP56_tag.fa  # 为 NOP56 序列建立索引
bwa mem -t 24 chr20_NOP56_tag.fa SRRxxxxxx.fastq > SRRxxxxxx_chr20_NOP56_tag.sam  # 将 FASTQ 数据比对到 NOP56中的序列

⑤sam文件排序生成bam文件并索引

samtools sort -@ 8 -o SRR_NOP56_sorted.bam SRR_NOP56.sam #其中8代表所使用的线程数
samtools index SRR14879760_chr20_sorted.bam #为bam文件建立索引

⑥使用picard 去除《重复数据》

使用conda创建一个虚拟环境,在该虚拟环境中安装picard

picard MarkDuplicates I=input.bam O=output.bam M=marked_dup_metrics.txt

⑦使用 bedtools 移除 ENCODE 项目中定义的《黑名单区域》

这里的黑名单区域指的是适用于 hg19 基因组版本的 ENCODE 黑名单区域的 bed 文件,先去encode中下载黑名单区域的bed文件

bedtools intersect -v -a your_data.bam -b hg19-blacklist.bed > filtered_data.bam

⑧生成覆盖度文件

这里的effectiveGenomeSize指的是有效基因组大小,指的是在测序分析中用于正常化的基因组的可测序区域的总长度(以碱基对为单位)。有效基因组大小与基因组的物理大小不同,通常排除了重复序列、未测序区域、基因组黑名单区域等不可测序或不可靠的区域。对于人类基因组,常见的基因组版本的有效基因组大小如下:

  • hg19: 2,733,156,957 bp
  • hg38: 2,916,115,550 bp
bamCoverage -b SRR14879760_chr20_NOP56_sorted.bam -o SRR14879760_chr20_NOP56_sorted.bw --normalizeUsing RPGC --effectiveGenomeSize 2914744149 --binSize 5

⑨在IGV中可视化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值