芯片数据分析步骤6 探针注释

本文详细介绍了芯片数据分析中探针注释的重要性,包括使用芯片厂商信息、GPL文件和bioconductor进行注释的步骤。通过注释探针,可以确定每个探针对应的基因,以便进行后续的差异基因分析和GSEA。文中提供了具体的R语言操作示例,重点讲解了使用bioconductor注释的常用方法。
摘要由CSDN通过智能技术生成

注释探针

注释探针的原因

为了防止非特异性结合造成的干扰,芯片厂商往往会使用多个探针检测同一个基因的表达。因此,芯片厂商不会使用基因名作为探针的名称,而是使用自己定义的探针名称。要合并重复探针,我们必须先对探针进行注释,确定每个探针对应检测哪个基因的表达,然后再合并重复探针。而后续分析如GSEA,只能对基因进行分析,因此也要求对探针进行注释。

注释探针的方法

1 使用芯片厂商的注释信息注释

这个方法是金标准,但也是最不常用的方法。为什么呢?你去芯片厂商的网站上搜索一下就知道了。操作界面非常的user-unfriendly,我找了半天都没找到我想要的注释信息。就更别提下载下来对手头的芯片数据进行注释了。

2 使用 GPL 文件注释

这个方法比较常见,操作起来很简单,既可以手动下载GPL信息,也可以用GEOquery包下载GPL信息。唯一的问题就是GPL文件一般比较大,下载下来不是很方便,还要求我们有一定的R语言基础才能进行注释。

以下用一个例子来演示如何使用GPL文件注释探针。

首先找到你想要分析的芯片数据的信息。这里使用的是GEO数据库GSE49382的芯片数据。

点开GSE49382的页面,可以看到GPL信息。用红框框出。是031058-Agilent ATH NAT array的芯片。我尝试去bioconductor里寻找相关的注释包,没找到。也就是说这个芯片不能用bioconductor进行注释,只能用GPL进行注释

点开GPL看看,可以看到GPL的注释信息。

注意到,第四列的”ORF”是我们需要的gene name信息。

下载数据。

library(GEOquery)
gse382<-getGEO('GSE49382',destdir =".")##根据GSE号来下载数据,下载_series_matrix.txt.gz
gpl515<-getGEO('GPL17515',destdir =".")  ##根据GPL号下载的是芯片设计的信息, soft文件
  • 24
    点赞
  • 142
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值