哈佛DEG课程--1.差异分析的设置和概述

本文链接：https://blog.csdn.net/u010608296/article/details/111858296

本文介绍了使用R进行RNA-seq差异基因表达(DGE)分析的过程，包括实验目标、工作流程、数据加载、DESeq2包的应用，以及为何选择负二项分布作为计数数据的模型。课程详细讲解了如何设置项目、检查数据、处理重复和测序深度，以及DESeq2在差异表达分析中的关键作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

32019.05.13 14:55:30字数 4,161阅读 1,496

https://hbctraining.github.io/DGE_workshop/lessons/01_DGE_setup_and_overview.html
（今天状态不佳，加上统计学基础不怎么样，如有错误请指出，我将在简书中更新）

RNA-seq的目标通常是进行差异表达检测，以确定哪些基因在不同条件间表达量有差异。这些基因可以从生物学角度揭示不同条件下受影响的生物过程。

RNA-seq工作流程的详细步骤如下图，可用于确定基因的表达水平。通过生成每个基因的read counts，在命令行（Linux / Unix）上执行所有步骤。

差异表达分析和其他下游功能分析通常用R中的专门的程序包完成，这些R包是为完成差异分析所需的复杂统计分析而设计的。

image

在接下来的几节课中，我们将引导你使用各种R包进行end-to-end的基因水平RNA-seq差异表达工作流程。我们将从计数矩阵开始，进行质控的探索性数据分析，探索样本之间的关系，进行差异表达分析，并在执行下游功能分析之前直观地探索结果。

1.检查示例数据集

示例数据集是RNA-Seq的完整计数矩阵，是Kenny PJ et al，Cell Rep 2014(http://www.ncbi.nlm.nih.gov/pubmed/25464849)描述的更大研究的一部分。

RNA-Seq实验对象是HEK293F细胞，所述HEK293F细胞用MOV10转基因或siRNA转染以降低Mov10表达，或非特异性（无关）siRNA转染。这导致了3种情况：Mov10 oe（过表达），Mov10 kd（击倒）和不相关的kd。重复次数如下所示。

image

这些数据集的目的是什么？Mov10做了什么？

作者正在研究脆性X综合征中涉及的各种基因之间的相互作用，这是一种FMRP蛋白异常产生的疾病。

FMRP “最常见于大脑，对正常的认知发育和女性生殖功能至关重要。该基因的突变可导致脆性X综合征，精神发育迟滞，卵巢早衰，自闭症，帕金森病，发育迟缓和其他认知缺陷。“ - 来自维基百科

MOV10是推定的RNA解旋酶，其在microRNA途径的背景下也与FMRP相关。

该论文正在测试的假说是FMRP和MOV10结合并调节RNA子集的翻译。

image

问题：

2.组织工作目录

在深入了解分析的细节之前，先打开RStudio并为此分析设置一个新项目。