原文见:http://www.biostat.ucsf.edu/jean/Presentation/IMSLAB.pdf
为了方便大家学习,我将该文翻译成中文加上一些相关的简单介绍,经验尚浅,还请大家多提意见。
1、R统计分析工具
文中主要利用R做为分析统计工具,软件相关信息见请参考www.r-project.org/。
英文简介:http://cran.r-project.org/doc/manuals/R-intro.pdf
中文简介:http://www.biosino.org/pages/newhtm/r/schtml
2、Bioconductor
Biocondocutor是基于R开发的用于基因组数据分析的软件,详情请参考http://www.bioconductor.org/。
Bioconductor的安装方法:打开R的命令窗口键入如下命令
source (http://www.bioconductor.org/biocLite.R)
biocLite()
3、数据
指南中使用的数据来自于三种急性白血病的基因表达研究,分别是B细胞急性淋巴性白血病(B-ALL),T细胞急性淋巴性白血病(T-ALL)和急性脊髓性白血病(AML)。利用含有6817个人类基因的Affymetrix高密度寡核苷酸阵列(hgu68a)分析38个B-ALL,9 个T-ALL和25个AML肿瘤样品的基因表达水平。
4、数据预处理
1)阈值:100~16,000
2)筛选:除去max/min 5或者(max-min) 500的基因。这里max和min是指mRNA样品中基因的最大和最小密度。
3)以2为底的对数转换
<