哈佛DEG课程--1.差异分析的设置和概述
小洁忘了怎么分身已关注
32019.05.13 14:55:30字数 4,161阅读 1,496
https://hbctraining.github.io/DGE_workshop/lessons/01_DGE_setup_and_overview.html
(今天状态不佳,加上统计学基础不怎么样,如有错误请指出,我将在简书中更新)
学习目标
- 解释实验及其目标
- 描述如何在R中设置RNA-seq项目
- 描述RNA-seq和差异基因表达分析工作流程
- 解释为什么负二项分布用于模拟RNA-seq计数数据
差异基因表达(DGE)分析概述
RNA-seq的目标通常是进行差异表达检测,以确定哪些基因在不同条件间表达量有差异。这些基因可以从生物学角度揭示不同条件下受影响的生物过程。
RNA-seq工作流程的详细步骤如下图,可用于确定基因的表达水平。通过生成每个基因的read counts,在命令行(Linux / Unix)上执行所有步骤。
差异表达分析和其他下游功能分析通常用R中的专门的程序包完成,这些R包是为完成差异分析所需的复杂统计分析而设计的。
image
在接下来的几节课中,我们将引导你使用各种R包进行end-to-end的基因水平RNA-seq差异表达工作流程。我们将从计数矩阵开始,进行质控的探索性数据分析,探索样本之间的关系,进行差异表达分析,并在执行下游功能分析之前直观地探索结果。
1.检查示例数据集
示例数据集是RNA-Seq的完整计数矩阵,是Kenny PJ et al,Cell Rep 2014(http://www.ncbi.nlm.nih.gov/pubmed/25464849)描述的更大研究的一部分。
RNA-Seq实验对象是HEK293F细胞,所述HEK293F细胞用MOV10转基因或siRNA转染以降低Mov10表达,或非特异性(无关)siRNA转染。这导致了3种情况:Mov10 oe(过表达),Mov10 kd(击倒)和不相关的kd。重复次数如下所示。
使用这些数据,我们将评估与MOV10表达的扰动相关的转录模式。请注意,不相关的siRNA作为对照组。
image
这些数据集的目的是什么?Mov10做了什么?
作者正在研究脆性X综合征中涉及的各种基因之间的相互作用,这是一种FMRP蛋白异常产生的疾病。
FMRP “最常见于大脑,对正常的认知发育和女性生殖功能至关重要。该基因的突变可导致脆性X综合征,精神发育迟滞,卵巢早衰,自闭症,帕金森病,发育迟缓和其他认知缺陷。“ - 来自维基百科
MOV10是推定的RNA解旋酶,其在microRNA途径的背景下也与FMRP相关。
该论文正在测试的假说是FMRP和MOV10结合并调节RNA子集的翻译。
image
问题:
- 可以通过MOV10的丢失或获得来识别哪些表达模式?
- 两种情况之间是否有共同的基因?
2.组织工作目录
在深入了解分析的细节之前,先打开RStudio并为此分析设置一个新项目。
- 转到
File
菜单并选择New Project
。 - 在<