比对生成view

不断进步的咕咕怪

已于 2024-09-18 22:41:03 修改

阅读量474

点赞数 21

分类专栏：生信入门操作文章标签： linux 运维服务器

于 2024-09-12 09:21:57 首次发布

本文链接：https://blog.csdn.net/lcl13193673272/article/details/142144634

版权

生信入门操作专栏收录该内容

6 篇文章 0 订阅

订阅专栏

问题1：详细步骤

在 Figure 1D 中，作者通过G4 CUT&Tag 技术展示了 G-quadruplex (G4) 结构在基因组中特定区域的覆盖情况。为了获得这个图像，作者使用了以下过程：

1. 参考基因组：

使用了 hg19 人类基因组作为参考基因组(2021_CutTag_G4mapping)。

2. 实验设计：

使用 G4 CUT&Tag 技术，通过特异性识别 G-quadruplex 的 BG4 抗体与转座酶相结合，捕获 G4 结构的 DNA 片段。该实验在不同细胞系中进行，如 HEK293T 和 HaCaT 细胞(2021_CutTag_G4mapping)。

3. 数据处理：

比对：使用 Bowtie2 工具将测序读数比对到参考基因组 hg19 上(2021_CutTag_G4mapping)。
数据清理：使用 samtools 生成 BAM 文件，并使用 picard 去除重复读数(2021_CutTag_G4mapping)。
过滤黑名单区域：使用 bedtools 移除 ENCODE 项目中定义的黑名单区域，这些区域通常是低复杂度或易误比对的区域(2021_CutTag_G4mapping)。

4. 生成覆盖度图：

使用 deepTools 的 bamCoverage 工具生成标准化的覆盖度文件 (BigWig)，参数设置为 RPGC 标准化（每个基因组覆盖度为 1x）；其中binSize 设置为 5，以生成每 5 个碱基对的覆盖度数据，这样可以得到精细的覆盖图(2021_CutTag_G4mapping)。

5. 图像可视化：

在 SeqPlots 和其他工具（如 wigglescout R库）中，作者可视化了这些覆盖度数据，生成了覆盖 G4 区域的图像(2021_CutTag_G4mapping)。

通过这些步骤，作者得到了 Figure 1D 中的图像，该图显示了不同实验中 G4 结构在基因组特定区域的覆盖情况，尤其是在人类细胞的 G4 信号的分布和强度。

问题2：文章步骤

图D是G4 CUT&Tag和G4 ChIP-seq在HaCaT细胞中的比较示例，以及G4 CUT&Tag和G4P-ChIP在HEK293T细胞中的比较示例。这些图片展示了G4 CUT&Tag和现有方法（G4 ChIP-seq和G4P-ChIP）在基因组上的信号分布。

图片展示了G4 CUT&Tag和现有方法在不同细胞系中的信号强度和分布，从而可以直观地比较这些方法的性能。

这段文字描述了对 G4 和 R-loop CUT&Tag 数据进行处理和分析的详细工作流程。以下是每个步骤的具体操作解释：

1. 比对序列读取数据

使用 Bowtie2 (v.2.3.5.1) 进行比对：首先，使用 Bowtie2 工具将测序读取的数据（reads）比对到参考基因组（如 mm9 或 hg19）。这一步旨在将测序得到的片段精确地映射到基因组上。
去除接头序列：通过设置 -5 19 参数，剪切掉测序读取的前 19 个碱基对（通常是接头序列）。这确保了比对数据的质量，不受接头序列的干扰。

conda install -c bioconda bowtie2=2.3.5.1 #安装
bowtie2 -x reference_genome -U input_reads.fastq -S output.sam -5 19 #使用

2. 生成 BAM 文件

使用 Samtools (v1.10)：比对结果存储为 BAM 文件，BAM 是一种压缩格式，包含了比对后的读取信息。这种格式方便后续的数据处理。

3. 去除重复区域

使用 Picard (v2.23.4) 的 MarkDuplicates 工具：去除 BAM 文件中重复的测序读取。这一步是为了排除 PCR 扩增过程中产生的重复片段，确保数据的唯一性和准确性。

4. 移除基因组黑名单区域

使用 Bedtools (v2.29.2) 和 ENCODE 黑名单文件：使用 ENCODE 提供的黑名单 .bed 文件，将比对结果中位于黑名单区域（即在实验中经常产生高背景噪音的区域）的数据去除。通过 Bedtools 的 intersect 命令，将这些不可靠的区域从 BAM 文件中移除。

5. 标准化生成覆盖度文件

使用 deepTools (v3.3.2) 的 bamCoverage 工具：使用 bamCoverage 工具生成标准化的覆盖度轨迹（BigWig 文件），这些文件可以用于可视化基因组上每个区域的测序覆盖度。
参数设置：
- --binSize 5：每 5 个碱基对计算一次覆盖度，以生成精细的覆盖图。
- --normalizeUsing RPGC：使用 RPGC 标准化方法（基因组覆盖度为 1x），确保不同样本之间的覆盖度数据可以直接比较。
- --effectiveGenomeSize：设置对应参考基因组的有效基因组大小。

6. 峰值调用

使用 MACS2 (v2.2.6) 进行峰值调用：利用 MACS2 软件对 CUT&Tag 数据进行峰值检测，确定基因组上富集的 G4 或 R-loop 结构的区域。

7. 高置信度峰值集

使用 Bedtools 合并重复实验的峰值：为了确保峰值的可靠性，使用 Bedtools 的 intersect 命令合并三个重复实验（G4）或两个重复实验（R-loop）的峰值，生成高置信度的峰值集。

8. 绘制 Venn 图

使用 R 包 VennDiagram：将不同重复实验的峰值重叠区域通过 Venn 图进行可视化，展示不同条件下的峰值共现情况。

9. 统计学显著性测试

使用 GSuite HyperBrowser (v2.1.3)：通过 Monte Carlo FDR （假发现率）测试，评估峰值集合间的重叠显著性。这个测试可以确认不同数据集之间的峰值重叠是否具备统计学意义。

总结：

这段文字描述了一个完整的 CUT&Tag 数据处理流程，涵盖了数据比对、去除重复、移除黑名单区域、生成标准化覆盖度图、峰值调用、高置信度峰值的确认和统计测试等步骤。整个流程是为了确保数据的准确性、可重复性以及分析结果的可靠性。

实际操作

①下载sra测序数据转为fastq文件

fastq-dump SRRxxxxxx  # 将 SRA 文件转为 FASTQ 文件
fasterq-dump SRRxxxxxx #比 fastq-dump 更快速的工具，适用于大数据集。

检查fastq文件格式

②下载hg38

wget https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
gunzip hg38.fa.gz #解压下载的fasta文件
samtools faidx hg38.fa #为fasta文件建立索引
less hg38.fa #查看fasta文件

检查fasta文件格式

③从hg38截取参考序列

samtools faidx hg38.fa chr20:2652733-2652753 > chr20_NOP56_tag.fa

④使用bwa将测序数据和参考序列比对

bwa index chr20_NOP56_tag.fa  # 为 NOP56 序列建立索引
bwa mem -t 24 chr20_NOP56_tag.fa SRRxxxxxx.fastq > SRRxxxxxx_chr20_NOP56_tag.sam  # 将 FASTQ 数据比对到 NOP56中的序列

⑤sam文件排序生成bam文件并索引

samtools sort -@ 8 -o SRR_NOP56_sorted.bam SRR_NOP56.sam #其中8代表所使用的线程数
samtools index SRR14879760_chr20_sorted.bam #为bam文件建立索引

⑥使用picard 去除《重复数据》

使用conda创建一个虚拟环境，在该虚拟环境中安装picard

picard MarkDuplicates I=input.bam O=output.bam M=marked_dup_metrics.txt

⑦使用 bedtools 移除 ENCODE 项目中定义的《黑名单区域》

这里的黑名单区域指的是适用于 hg19 基因组版本的 ENCODE 黑名单区域的 bed 文件，先去encode中下载黑名单区域的bed文件

bedtools intersect -v -a your_data.bam -b hg19-blacklist.bed > filtered_data.bam

⑧生成覆盖度文件

这里的effectiveGenomeSize指的是有效基因组大小，指的是在测序分析中用于正常化的基因组的可测序区域的总长度（以碱基对为单位）。有效基因组大小与基因组的物理大小不同，通常排除了重复序列、未测序区域、基因组黑名单区域等不可测序或不可靠的区域。对于人类基因组，常见的基因组版本的有效基因组大小如下：

hg19: 2,733,156,957 bp
hg38: 2,916,115,550 bp

bamCoverage -b SRR14879760_chr20_NOP56_sorted.bam -o SRR14879760_chr20_NOP56_sorted.bw --normalizeUsing RPGC --effectiveGenomeSize 2914744149 --binSize 5