1. MNase-seq 简介
MNase-seq(Micrococcal Nuclease Sequencing,微球菌核酸酶测序)是一种用于研究 染色质结构 和 核小体定位 的高通量测序技术。它利用 微球菌核酸酶(Micrococcal Nuclease, MNase) 的特性,选择性消化裸露的DNA,而保留核小体(nucleosome)包裹的DNA片段。随后,对这些DNA片段进行测序,以分析染色质的构象、核小体占据位置及其调控作用。
2. MNase-seq 的原理
MNase-seq 的原理主要基于 MNase 对染色质的选择性降解:
-
MNase 是一种核酸内切酶,具有核糖核酸酶和脱氧核糖核酸酶活性:
- 对游离 DNA(无蛋白结合)高度敏感
,可完全降解成小片段。
- 对核小体保护的 DNA 具有较低的降解能力
,因此可用于研究染色质结构。
- 对游离 DNA(无蛋白结合)高度敏感
-
核小体是 DNA 与组蛋白形成的基本单位,每个核小体约由 147 bp DNA 围绕 组蛋白八聚体(H2A、H2B、H3、H4 各两份) 形成。
-
MNase 消化后,核小体保护的 DNA 片段会被富集,并通过高通量测序(NGS)分析核小体的 定位、间隔、占据密度 等信息。
3. MNase-seq 实验流程
(1) 样本制备
-
选择细胞或组织样本(如哺乳动物细胞、酵母、植物等)。
-
交联(可选):有时会使用 甲醛交联 来稳定染色质结构,特别是在研究动态核小体时。
-
细胞裂解,释放染色质。
(2) 微球菌核酸酶(MNase)消化
-
使用不同浓度的 MNase 处理染色质,以获得不同程度的 DNA 片段化:
- 短时间消化
:保留多核小体片段(如二聚体、三聚体)。
- 长时间消化
:主要获取单个核小体(~147 bp DNA)。
- 短时间消化
-
终止反应,提取DNA。
(3) DNA 片段纯化
-
使用 酚-氯仿提取 或 磁珠纯化 去除蛋白质等杂质。
- 琼脂糖凝胶电泳
或 生物分析仪(Bioanalyzer) 检测片段大小(主要分布在 ~147 bp)。
(4) 构建测序文库
-
连接测序接头(Adapter ligation)。
-
选择适当片段大小(~150 bp)。
-
进行 PCR 扩增,富集目的 DNA 片段。
(5) 高通量测序
-
采用 Illumina、Nanopore 或 PacBio 平台进行测序(Illumina 最常用)。
-
生成短读序列(Reads)。
(6) 数据分析
数据分析主要包括:
-
数据质控(Quality Control, QC)
-
使用 FastQC 检查测序数据质量。
-
过滤低质量 reads 和接头污染。
-
-
比对到参考基因组
-
使用 Bowtie2 或 BWA 将 reads 对齐到参考基因组。
-
过滤多重比对的 reads。
-
-
核小体定位分析
-
计算 核小体占据图谱(nucleosome occupancy map)。
-
识别 核小体空缺区(nucleosome-free regions, NFRs)。
-
使用 NucleoATAC、NPS(Nucleosome Positioning Software) 或 iNPS 进行核小体定位预测。
-
-
可视化
-
使用 IGV(Integrative Genomics Viewer) 或 UCSC Genome Browser 查看核小体分布。
-
使用 DeepTools 绘制 核小体占据热图。
-
4. MNase-seq 数据解读
MNase-seq 主要提供如下信息:
-
核小体定位(Nucleosome Positioning)
-
高 MNase 信号区域表示 稳定核小体。
-
低 MNase 信号区域表示 开放染色质或活跃调控区域(如启动子、增强子)。
-
-
染色质可及性(Chromatin Accessibility)
-
在 活跃基因启动子 处,通常观察到 核小体空缺区(NFR),表明转录因子易于结合。
-
-
动态染色质重塑
-
比较不同条件下(如药物处理前后)MNase-seq 数据,可揭示 核小体重塑(nucleosome remodeling) 机制。
-
5. MNase-seq 与其他染色质研究技术的比较
技术 | 研究目标 | 优点 | 缺点 |
---|---|---|---|
MNase-seq | 核小体定位 | 高分辨率、可检测核小体稳定性 | 可能存在 MNase 偏好性 |
ATAC-seq | 染色质可及性 | 无需交联、快速、适用于小细胞数 | 不能直接解析核小体精确位置 |
DNase-seq | 开放染色质区域 | 可检测增强子等调控元件 | 不能分辨核小体精确结构 |
ChIP-seq | 组蛋白修饰 | 研究组蛋白修饰模式 | 依赖抗体质量 |
6. MNase-seq 的局限性
虽然 MNase-seq 是研究核小体结构的重要工具,但仍存在一些限制:
-
酶切偏好性(Enzyme Bias)
-
MNase 偏向于切割 A/T 富集区域,可能导致某些区域被过度消化或保护不均匀。
-
-
不能直接研究染色质调控因子
-
只能提供核小体定位信息,而不能直接检测 组蛋白修饰 或 转录因子结合(需要结合 ChIP-seq)。
-
-
实验条件影响
- MNase 浓度、消化时间、细胞固定
等因素会影响核小体占据分析。
- MNase 浓度、消化时间、细胞固定
7. MNase-seq 的应用
MNase-seq 在染色质结构和基因调控研究中具有广泛应用:
-
核小体定位和基因调控
-
研究启动子区的核小体组织,揭示转录调控机制。
-
-
染色质重塑和表观遗传调控
-
结合 ChIP-seq,可研究组蛋白修饰如何影响核小体定位。
-
-
癌症和疾病研究
-
发现 肿瘤细胞 染色质异常,揭示表观遗传调控异常导致的疾病。
-
8. 结论
MNase-seq 是研究 核小体组织和染色质结构 的强大工具。它可以提供高分辨率的 核小体定位图谱,帮助解析 基因调控机制,但仍需结合其他技术(如 ATAC-seq、ChIP-seq)以获得更全面的染色质调控信息。
以下是一个MNase-seq 数据分析 流程,涵盖从原始数据质控、比对、去除重复、核小体定位分析到可视化的各个步骤,使用常见的生物信息学工具(如 FastQC
、Bowtie2
、Samtools
、deepTools
等)。
✅ 环境准备
在执行以下代码前,请确保已安装以下工具:
- FastQC
(数据质控)
- Bowtie2
(比对工具)
- Samtools
(BAM 文件处理)
- deepTools
(核小体定位和可视化)
- bedtools
(基因组操作)
- IGV
(可视化)
如果未安装,可使用以下命令安装:
# 以 Ubuntu/Debian 系统为例
sudo apt update
sudo apt install fastqc bowtie2 samtools bedtools
pip install deeptools
📂 1. 数据质控 (Quality Control)
输入文件
sample_R1.fastq.gz(MNase-seq 原始数据)
sample_R2.fastq.gz(双端数据时)
执行 FastQC
mkdir -p QC
fastqc sample_R1.fastq.gz sample_R2.fastq.gz -o QC
查看质控报告
firefox QC/sample_R1_fastqc.html
注意:如果存在低质量碱基、接头污染,可以使用
Trim Galore
进行修剪:
trim_galore --paired sample_R1.fastq.gz sample_R2.fastq.gz -o trimmed/
🔗 2. 将 Reads 比对至参考基因组
索引参考基因组
假设使用 人类基因组 (hg38):
bowtie2-build hg38.fa hg38
进行比对
bowtie2 -x hg38 -1 sample_R1.fastq.gz -2 sample_R2.fastq.gz \
-S sample.sam --threads 8 --very-sensitive
参数解释:
-x
:基因组索引前缀
-1/-2
:双端测序数据
--very-sensitive
:提高比对准确性
--threads
:多线程加速
将 SAM 转换为 BAM 格式
samtools view -Sb sample.sam > sample.bam
📊 3. 比对结果统计与过滤
统计比对信息
samtools flagstat sample.bam
去除多重比对和低质量比对
samtools view -b -q 30 sample.bam > sample.q30.bam
参数解释:
-q 30
:只保留 MAPQ ≥ 30(高置信度)的 reads。
去除 PCR 重复
samtools rmdup sample.q30.bam sample.rmdup.bam
排序和建立索引
samtools sort -o sample.sorted.bam sample.rmdup.bam
samtools index sample.sorted.bam
📐 4. 核小体占据区域分析
生成 Fragment Length 分布
bamPEFragmentSize --bam sample.sorted.bam --outFile fragment_length.txt \
--plotFile fragment_length.png --samplesLabel "MNase-seq"
目的:
-
单核小体 (~147 bp) 是 MNase-seq 的典型片段长度。
-
双核小体 (~300 bp) 也可能存在。
提取单核小体区域 (120-180 bp)
samtools view -h sample.sorted.bam | \
awk '{if($9 >= 120 && $9 <= 180) print $0}' | \
samtools view -b - > sample.nucleosome.bam
📌 5. 生成核小体占据图谱
生成覆盖度 (bigWig) 文件
bamCoverage -b sample.nucleosome.bam -o sample.nucleosome.bw \
--binSize 10 --normalizeUsing RPKM
参数解释:
--binSize 10
:窗口大小(10 bp)
--normalizeUsing RPKM
:对覆盖度进行 RPKM 标准化
📏 6. 核小体定位 (Peak Calling)
使用 NucleoATAC 进行核小体定位
安装:
conda install -c bioconda nucleoatac
执行定位:
nucleoatac run --bam sample.sorted.bam --fasta hg38.fa --out sample_nucleoatac
输出:
*_nucpos.bed
:核小体位置
*_nfr.bed
:核小体空缺区
📊 7. 核小体可视化
在 IGV 中查看核小体
-
下载 IGV:https://software.broadinstitute.org/software/igv/
-
导入数据:
sample.nucleosome.bw
(核小体覆盖度)
*_nucpos.bed
(核小体定位)
生成热图 (Heatmap)
computeMatrix reference-point \
--referencePoint TSS \
-b 2000 -a 2000 \
-R genes.bed \
-S sample.nucleosome.bw \
-o matrix.gz
plotHeatmap -m matrix.gz -o nucleosome_heatmap.png
结果:生成的热图直观展示基因启动子周围的核小体分布情况。
📚 8. 结果解读
- 核小体密集区域
:染色质紧密、基因不易转录。
- 核小体空缺区 (NFR)
:开放染色质,利于转录因子结合。
- 核小体定位变异
:比较不同条件下的核小体分布,揭示染色质重塑。
🧰 9. 批处理脚本
如果需要对多个样本进行批量分析,可使用以下 Shell 脚本:
#!/bin/bash
for sample in $(ls *.fastq.gz | sed 's/_R[12].fastq.gz//' | uniq); do
echo "Processing: $sample"
fastqc ${sample}_R1.fastq.gz ${sample}_R2.fastq.gz -o QC
bowtie2 -x hg38 -1 ${sample}_R1.fastq.gz -2 ${sample}_R2.fastq.gz \
-S ${sample}.sam --threads 8 --very-sensitive
samtools view -Sb ${sample}.sam | samtools sort -o ${sample}.sorted.bam
samtools rmdup ${sample}.sorted.bam ${sample}.rmdup.bam
bamCoverage -b ${sample}.rmdup.bam -o ${sample}.bw --binSize 10 --normalizeUsing RPKM
done
生信大白记第54记,就到这里,关注我!
下一记,持续更新学习生物信息学的内容!
生信大白记邮箱账号:shengxindabaiji@163.com
生信大白记简书账号:生信大白记
生信大白记CSDN账号:生信大白记
生信大白记微信公众号:生信大白记
加入生信大白记交流群938339543