基因芯片（Affymetrix）分析2：芯片数据预处理

最新推荐文章于 2022-12-12 00:36:47 发布

amw5181360

最新推荐文章于 2022-12-12 00:36:47 发布

阅读量799

点赞数

文章标签： xhtml 数据结构与算法 c/c++

原文链接：http://www.cnblogs.com/huzs/p/3741997.html

版权

本文详细介绍了基因芯片（Affymetrix）数据的预处理过程，包括背景处理、归一化处理和汇总。讨论了线性缩放、非线性缩放、分位数方法等，以及MAS5、RMA和gCRMA等自动化处理函数的使用。预处理步骤的选择对最终结果有显著影响，文章提供了方法评估的思路。

摘要由CSDN通过智能技术生成

(本文于2013.09.04更新）

基因芯片技术的特点是使用寡聚核苷酸探针检测基因。前一节使用ReadAffy函数读取CEL文件获得的数据是探针水平的（probe level），即杂交信号，而芯片数据预处理的目的是将杂交信号转成表达数据（即表达水平数据，expression level data）。存储探针水平数据的是AffyBatch类对象，而表达水平数据为ExpressionSet类对象。基因芯片探针水平数据处理的R软件包有affy, affyPLM, affycomp, gcrma等，这些软件包都很有用。如果没有安装可以通过运行下面R语句安装：

library(BiocInstaller)
biocLite(c("affy","gcrma", "affyPLM", "affycomp"))

Affy芯片数据的预处理一般有三个步骤：

背景处理（background adjustment）
归一化处理（normalization，或称为“标准化处理”）
汇总（summarization）。

最后一步获取表达水平数据。需要说明的是，每个步骤都有很多不同的处理方法（算法），选择不同的处理方法对最终结果有非常大的影响。选择哪种方法是仁者见仁智者见智，不同档次的杂志或编辑可能有不同的偏好。

1 需要了解的一点Affy芯片基础知识

Affy基因芯片的探针长度为25个碱基，每个mRNA用11~20个探针去检测，检测同一个mRNA的一组探针称为probe sets。由于探针长度较短，为保证杂交的特异性，affy公司为每个基因设计了两类探针，一类探针的序列与基因完全匹配，称为perfect match（PM）probes，另一类为不匹配的探针，称为mismatch （MM）probes。PM和MM探针序列除第13个碱基外完全一样，在MM中把PM的第13个碱基换成了互补碱基。PM和MM探针成对出现。

我们先使用前一节的方法载入数据并修改芯片名称：

library(affy)
library(tcltk)
filters <- matrix(c("CEL file", ".[Cc][Ee][Ll]", "All", ".*"), ncol = 2, byrow = T)
cel.files <- tk_choose.files(caption = "Select CELs", multi = TRUE,
                             filters = filters, index = 1)
# 最好查看一下文件名称
basename(cel.files)

## [1] "NRID9780_Zarka_2-1_MT-0HCA(SOIL)_Rep1_ATH1.CEL" 
## [2] "NRID9781_Zarka_2-2_MT-0HCB(SOIL)_Rep2_ATH1.CEL" 
## [3] "NRID9782_Zarka_2-3_MT-1HCA(SOIL)_Rep1_ATH1.CEL" 
## [4] "NRID9783_Zarka_2-4_MT-1HCB(SOIL)_Rep2_ATH1.CEL" 
## [5] "NRID9784_Zarka_2-5_MT-24HCA(SOIL)_Rep1_ATH1.CEL"
## [6] "NRID9785_Zarka_2-6_MT-24HCB(SOIL)_Rep2_ATH1.CEL"
## [7] "NRID9786_Zarka_2-7_MT-7DCA(SOIL)_Rep1_ATH1.CEL" 
## [8] "NRID9787_Zarka_2-8_MT-7DCB(SOIL)_Rep2_ATH1.CEL"

data.raw <- ReadAffy(filenames = cel.files)
sampleNames(data.raw) <- paste("CHIP",1:length(cel.files),sep="")

用pm和mm函数可查看每个探针的检测情况：

pm.data.raw <- pm(data.raw)
head(pm.data.raw, 2)

##        CHIP1 CHIP2 CHIP3 CHIP4 CHIP5 CHIP6 CHIP7 CHIP8
## 501131 127.0 166.3   112 139.8 111.3  85.5 126.3 102.8
## 251604 118.5 105.0    82 101.5  94.0  81.3 103.8 103.0

mm.data.raw <- mm(data.raw)
head(mm.data.raw, 2)

最低0.47元/天解锁文章

amw5181360

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫