芯片数据分析笔记【05】 | 处理芯片数据的R包

本文详细介绍了基因芯片数据分析的过程,涉及Affymetrix、Illumina和Agilent三种主要芯片的数据处理。主要内容包括芯片数据的来源、格式以及使用R包如affy、oligo、limma、beadarray、lumi等进行数据读取、质量控制、背景矫正和标准化的方法。同时,提到了各类原始数据文件,如CEL、idat、txt等,以及对应的处理工具和数据库资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

芯片数据分析笔记【01】 | 基因芯片的基本原理

芯片数据分析笔记【02】 | 芯片数据库

芯片数据分析笔记【03】 | GEO数据库使用教程及在线数据分析工具

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍


芯片原始数据文件包括:① 芯片图像扫描得到的记录光信号强度的Intensity文件 ② 包含芯片类型、探针排布等芯片具体设计信息的Design文件 ③ 包含探针注释信息、探针序列等信息的Annotation文件 ④ 包含样本分组、实验处理等信息的Targets文件。不同芯片厂商的文件格式不同,下面是三大厂商芯片数据相应文件的格式信息:

原始芯片数据的来源:①  GEO、ArrayExpres等多个存储芯片实验数据的数据库 ② 芯片公司的官方网站。

处理这些数据会用到下面这些R包:

affy/oligo;beadarray/lumi;limma ;AgiMicroRna ;GEOquery ;readr/readxl。

(1). Affymetrix芯片

Affymetrix芯片原始数据最常用的格式是CEL格式,从读取原始数据到转化为基因表达量矩阵表格,可以使用affy ,oligo等R包进行数据的质量控制,背景矫正,数据标准化,其中标准化方法常用的为rma算法和mas5算法。

1). affy包

R包affy用于读取Affymetrix芯片CEL文件,也可用于读取一些较早期的affy芯片数据,如3'IVT 芯片,常见的U133系列(GPL570、GPL57K GPL96) ,不适合用于读取较新的affy芯片类型,如Exon ST、 GeneSK SNP芯片。affy读取CEL文件函数是read.affybatch/ReadAffy 读取后的对象类别:AffyBatch

2). oligo包

oligo读取Affymetrix芯片CEL文件,也可以读取affymetrix的几乎所有芯片类型的CEL文件,此外,oligo还可读取Roche NimbleGen芯片的.xys原始数据文件 ,oligo读取CEL文件函数是read.celfiles,读取后的对象类别:

芯片数据

对象

Expresssion arrays

ExpressionFeatureSet

Gene ST arrays

GeneFeatureSet

Exon ST arrays

ExonFeatureSet

SNP arrays

SnpFeatureSet

Tiling arrays

TilingFeatureSet

(2). Illumina芯片

Illumina芯片数据分析的4个起点:① Pixel-level,每个像素点对应一个数据, tif/tiff 格式;②  Bead-level,每个bead对应一个数据, 类似于affymetrix的单个probe数据, 具体数据包括txt/idat/Iocs /sdf/ xml等多种格式;③ Summary-level,每个bead type对应 —个数据,类似于affy的probe set数据, txt/CSV 格式;④ 公共数据库存储的表达矩阵数据,如 GEO/ArrayExpress,部分数据集已经过预处理,属于summary-level。

使用iScan/BeadScan扫描图像及处理图像信息时,因软件的具体版 本和设置参数不同,产生多种不同格式的原始数据文件。① .txtfiles,包含所有beads坐标数据和已减去背景值的光信号强度值 ② .tiffiles,扫描后得到的图像文件 ③ .Iocs files,包含所有beads的坐标信息 ④ .idatfiles,专有的二进制文件用于储存光信号强度数据,可供 BeadStudio/GenomeStudio读取进行后续分析 ⑤ .xml files,包含仪器的扫描参数设置和提取光强度值数据的具体方法信息 ⑥ .bgx files,包含探针注释信息 ⑦ Metrics.txt,包含扫描芯片的质量参数信息 ⑧ .sdf files,包含样本/芯片的具体构架、布局信息 ⑨ IBS (Illumina Bead Summary) files,.csv格式,summary-level 数据。

1). limma包

read.ilmn函数读取summary-level数据 , read.idat读取idat数据。

2). beadarray包

readlllumina函数最常用,用于读取bead-level数据 ;readTIFF函数读取pixel-level图像数据 ;readldatFiles函数读取idat文件;readLocsFile函数读取.Iocs文件;readBeadSummaryData函数读取summary-level数据。

3). lumi包

lumiR函数读取summary-level数据 lumiR.batch函数批量读取summary-level数据

4). illuminaio包

readIDAT函数读取idat数据 ;readBGX函数读取.bgx文件。

(3). Agilent芯片

1). limma

limma包中的read.maimages函数不限于Agilent芯片数据,可用于读取多个平台芯片文件,但不适用于affymetrix及illumina芯片数据 ,可读取单色及双色芯片数据;可读取多种图像分析程序产生的txt数据,如:Agilent Feature Extraction, Arrayvision, BlueFuse, GenePix, ImaGene, QuantArray (Version 3 or later), Stanford Microarray Database (SMD),SPOT。

2). AgiMicroRna

readMicroRnaAFE 函数适用于Agilent的miRNA芯片数据。

### EWAS分析的方法教程与工具推荐 #### 方法教程 对于EWAS(Epigenome-Wide Association Studies),即表观基因组关联研究,这类研究旨在识别DNA甲基化位点与特定疾病或特征之间的关系。为了有效开展此类研究,了解其基本流程至关重要。 1. **数据处理** 数据获取通常来自公共数据库如GEO (Gene Expression Omnibus)[^2] 或者TCGA(The Cancer Genome Atlas),这些平台提供了大量经过标准化处理数据集供研究人员下载使用。之后需对原始测序文件执行质量控制(QC)操作以及批次效应校正等步骤来提高后续统计检验准确性[^3]。 2. **差异甲基化区域(DMRs)检测** 基于单个胞嘧啶磷酸鸟嘌呤二核苷酸(CpG site)-level水平上的β值变化情况评估不同样本间是否存在显著性的甲基化状态改变;也可以考虑采用滑动窗口策略寻找连续区域内多个相邻位置共同表现出一致趋势的变化模式作为候选DMRs[^4]。 3. **多变量回归模型构建** 利用线性/逻辑回归方程量化目标变量(如病例对照标签或其他临床指标)同各潜在风险因子间的联系强度大小,并调整混杂因素影响以获得更加可靠的估计结果[^5]。 4. **功能富集分析** 鉴定出的关键调控元件可能参与某些生物学过程或者信号通路之中,因此有必要借助专门软件比如DAVID、g:Profiler来进行GO term分类注释及KEGG pathway mapping等工作从而揭示背后的分子机制[^6]。 #### 推荐工具 - **minfi**: Bioconductor中的R之一,专为Illumina Infinium HumanMethylation BeadChip芯片设计而开发出来的用于读取IDAT格式输入并完成一系列下游任务括但不限于背景矫正、探针过滤、细胞组成估算等功能模块集成解决方案[^7]。 - **ChAMP**: 另一款基于Biocondcutor框架下的交互式图形界面应用程序,除了具备上述提到的功能外还额外支持多种可视化图表绘制选项以便直观展示实验发现要点所在之处[^8]。 - **WateRmelon**: 提供了一套完整的管道工作流涵盖了从FASTQ序列到最终报告生成整个链条上所需的一切必要组件,在灵活性方面表现尤为突出允许用户自定义参数设置满足个性化需求的同时也兼顾到了初学者友好型用户体验考量[^9]。 ```r library(minfi) # 加载必要的库 data <- read.metharray.exp(beta = TRUE, path="path_to_your_data") # 导入beta矩阵形式的甲基化测量值 pData(data)$sample_group <- factor(pData(data)$group_variable_name) # 添加分组信息给样品属性表格 design_matrix <- model.matrix(~ sample_group , data=pData(data)) # 构建协变量设计矩阵 fitLinear <- fitLinear(data=data,beta=TRUE,design=design_matrix) # 执行多元线性拟合计算P-value和FDR q-values ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值