主成分分析(PCA)
峰唱清楚的看到每个组内部的重复性如何以及一个组和另一个组之间的差别多大
目前指标很少
表达矩阵里面的变量
一个sample可以成为一个身高体重肺活量等的变量的集合吗?
一个观测就是一个sample,就是好多变量的集合
转置
一堆线条太乱了
改成用一个点代表一个样本?
用点就需要更换坐标系
PCA样本聚类图(相似的离得近,不相似的离得远)
没法和临床研究中的关系进行聚类分析,在基因分析中就是看一看组内重复如何、组间差异如何
dim1和dim2我们平时不关注
主成分分析旨在利用降纬的思路,基本就是用于预实验,看组内一致性和组间差异性
同一组是否聚成一簇(组内重复性好),中心点之间是否有距离(组间是否有差异)
常用数据库介绍
GEO gene expression ominibus 上面有网页工具 GEO2R,里面也提供了R语言代码
series是我们需要关注的数据集(不是DataSets)
Series 包含整个完整的研究,提供了整个研究的描述,包括对数据的描述、总结和分析GSE
sample 用户提交的样本数据GSM
platform用户测定表达量的芯片/平台GPL
基因表达芯片的原理
载玻片中间的位置有一个像电子芯片一样的“探针”,用探针去探,探出来的探针表达量就代表基因的表达量
探针是一段短的核苷酸序列
分析思路
找数据,找到GSE编号
不会因为同一个数据发好多次说你不行
下载并读取数据-有专门为GEO开发的读取数据,自动拆出来表达矩阵、临床信息(分组信息是最重要的)、GPL编号(仪器编号,不同公司不同产品的编号都不太一样,对应了不同的探针注释,我们根据探针去转换成背后代表的基因)
数据探索—看分组之间是否有差异、PCA图和热图,相当于是预实验,在差异分析之前看一下数据怎么养
差异分析和可视化-P值、logFC-火山图、热图
富集分析-KEGG、GO
我们不画全部基因的热图
- 数据太大、画出来浪费计算资源
- 没有必要,几万个基因里面只有一百多个几十个有差异
别人发过的数据还是能用的
GEO上下载数据流程:
记得长脚本的管理:分段脚本,在不同的脚本里独立检查每一个步骤
批量安装包的代码
cran_packages打包一个向量
bioconductor的打包一个
两个分别if !安装执行一下就ok了
质检一下
两种方法
1、删掉异常样本
2、将组内标准归一化,改变问题exp=limma::normalizeBetween
中位数在0附近也是不正常的数据
取过log——少量的负值,中位数>4——是正常的
没取log——有负值——错误数据
因为是光数据,光数据不存在负数
?但是不是经过减了吗?
group
这里给的标准代码是二分组的,多分组后面重新讲
tinyarray是小洁老师写的包
find_anno是辅助找探针注释的代码,看控制台里输出的提示结果