Affymetrix Human Transcriptome Array 2.0芯片 - Gene_ID转换

本文介绍了AffymetrixGPL16686、GPL17586和GPL19251三种基因芯片平台的区别,以及使用R语言进行GSE77532和GSE110359数据处理的方法,包括手动和biomaRt包的id转换和数据过滤过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

GPL16686芯片平台分析

天涯清水
IP属地: 重庆
0.635
2022.06.20 22:33:45
字数 302
阅读 3,005

https://www.jianshu.com/p/d3463f3a3a67

  • 芯片分析中经常会遇到Affymetrix Human Transcriptome Array 2.0芯片,由于目前还没有现成的R包可以用,因此分析方法也不统一。见生信技能树Jimmy老师HTA2.0芯片比较麻烦,其实这类常见的有3个平台,3种类型:

    • GPL17586 [HTA-2_0] Affymetrix Human Transcriptome Array 2.0 [transcript (gene) version]
    • GPL19251 [HuGene-2_0-st] Affymetrix Human Gene 2.0 ST Array [probe set (exon) version]
    • GPL16686 [HuGene-2_0-st] Affymetrix Human Gene 2.0 ST Array [transcript (gene) version]

对于这三种平台可以去Affymetrix的官网去查看其区别,也可以去NCBI去查看:
GPL17586
GPL19251
GPL16686

方法一

我按照芯片分析的一般流程进行分析,以GPL16686平台,GSE77532 为例:

  1. 读入soft文件,手动下载GSE77532对应的soft文件,实际应该下载GPL16686对应的GPL16686.soft文件,网速原因,只能退而求其次。
rm(list = ls())
options(stringsAsFactors = F)

#读入soft文件
library(GEOquery)
gse77532 <- getGEO(filename = "GSE77532_family.soft.gz",destdir = ".")
dim(gse77532)

y <- gse77532@gpls$GPL16686@dataTable@table
dim(y)

head(y)
y[1:4,1:8]
  1. id转换
#### id conversion

library(clusterProfiler)
ENTREZID<- bitr(y[,6], fromType = "ACCNUM", 
                toType=c("SYMBOL","ENSEMBL","ENTREZID"),
                OrgDb = org.Hs.eg.db)
ls(package:clusterProfiler)

dim(ENTREZID)
ENTREZID[1:5,1:4]

save(y,ENTREZID,file = "ids.Rdata")

#ids过滤探针
table(y$GB_ACC %in% ENTREZID$ACCNUM)
y1 <- y[y$GB_ACC %in% ENTREZID$ACCNUM,]
y1[1:5,1:8]
y2 <- y1[,c(1,6)]
names(y2) <- c("probe_id","ACCNUM")

#合并y2与ENTREZID
ids <- merge(y2,ENTREZID,by ="ACCNUM",all=F)
ids[1:5,1:5]
dim(ids)
##载入表达矩阵
load("GSE77532_exprSet.Rdata")

exprSet <- exprSet2
exprSet[1:5,1:6]

#过滤表达矩阵

exprSet <- exprSet[rownames(exprSet) %in% ids$probe_id,]
dim(exprSet)
exprSet[1:5,1:5]

#ids过滤探针
ids <- ids[match(rownames(exprSet),ids$probe_id),]
dim(ids)
ids[1:2,1:5]
ids <- ids[,c(2,3)]
dim(ids)
ids[1:2,1:2]
#合并表达矩阵和ids

idcombine <- function(exprSet, ids){
  tmp <- by(exprSet,
            ids$SYMBOL,
            function(x) rownames(x)[which.max(rowMeans(x))])
  probes <- as.character(tmp)
  print(dim(exprSet))
  exprSet <- exprSet[rownames(exprSet) %in% probes,]
  
  print(dim(exprSet))
  rownames(exprSet) <- ids[match(rownames(exprSet), ids$probe_id),2]
  return(exprSet)
}

new_exprSet <- idcombine(exprSet,ids)
new_exprSet[1:4,1:6]

方法二

  1. id 转换用biomaRt包,更方便一些,只是网速支持不下来。
GPL17586平台芯片
#
rm(list = ls())
options(stringsAsFactors = F)

#加载R包

library(GEOquery)

#读入soft文件

GSE110359 <- getGEO(filename = "GSE110359_family.soft.gz",destdir = ".")
dim(GSE110359)

y <- GSE110359@gpls$GPL17586@dataTable@table
 

dim(y)

head(y)
y[1:4,1:15]
View(head(y))## you need to check this , which column do you need

probe2gene <- y[,c(2,8)] 

library(stringr)  
probe2gene$symbol=trimws(str_split(probe2gene$gene_assignment,'//',simplify = T)[,2])
plot(table(table(probe2gene$symbol)),xlim=c(1,50))
head(probe2gene)


dim(probe2gene)
View(head(probe2gene))
ids2 <- probe2gene[,c(1,3)]
View(head(ids))
ids2[1:20,1:2]#含有缺失值
save(ids2,probe2gene,file='GSE110359-probe2gene.Rdata')

load("GSE110359-probe2gene.Rdata")
#####
View(head(probe2gene))
dim(probe2gene)
  1. ID 转换
library(biomaRt)

x <- probe2gene$probeset_id
value <- x
attr <- c("affy_hta_2_0","hgnc_symbol")

ensembl <- useMart("ensembl", dataset = "hsapiens_gene_ensembl") 



ids <- getBM(attributes = attr,
             filters = "affy_hta_2_0",
             values = value,
             mart = ensembl,
             useCache = F)

dim(ids)#[1] 1041    2
View(head(ids))

save(ids,file = "GPL17586_ids.Rdata")


#去重之后
table(unique(ids$hgnc_symbol))#28262

attributes <- listAttributes(ensembl)
View(attributes) # 查看转换格式

save(ids,ensembl,y,file = "ensembl.Rdata")

©著作权归作者所有,转载或内容合作请联系作者

<think>好的,我现在需要帮用户解决如何从Affymetrix下载FASTA格式的探针序列信息的问题。首先,我得确认用户的具体需求。Affymetrix芯片通常用于基因表达分析,用户可能需要探针序列来进行比对或其他生物信息学分析。 接下来,我应该回忆一下Affymetrix的官方网站结构。用户可能需要访问他们的支持或资源页面,找到特定的芯片产品。通常,公司会为每个芯片型号提供相关文件,比如注释文件和探针序列。但不确定是否所有芯片都直接提供FASTA格式,可能需要转换。 步骤一:访问官网。用户需要进入Affymetrix的官方网站,不过现在可能已经合并到Thermo Fisher Scientific的网站了。所以可能需要引导用户到Thermo Fisher的相应部分查找。 步骤二:查找芯片产品。用户需要知道具体的芯片型号,比如HG-U133 Plus 2.0,然后在该产品的支持页面寻找相关下载。可能的位置包括“支持”、“文档和下载”或“产品资源”。 步骤三:下载探针信息。这里可能需要找Annotation文件,通常这些是CSV或TXT格式,包含探针ID、序列等信息。但用户需要FASTA格式,可能需要从这些文件中提取序列,并转换成FASTA。 步骤四:转换格式。如果原始文件不是FASTA,用户需要手动处理。比如,用Excel或脚本提取两列:探针ID和序列,然后格式化为>ProbeID\nATCG...。可能需要提供简单的示例代码,比如使用Python或Shell命令。 另外,是否有其他途径?比如第三方数据库如UCSC或NCBI的GEO,可能已经有用户上传的FASTA文件。或者Bioconductor的R包可能包含某些芯片的探针序列,可以用R脚本导出为FASTA。 需要注意的问题:不同芯片的可用性可能不同,较新的或旧的可能有不同的处理方式。另外,确保用户知道如何找到正确的芯片型号,可能需要指导他们确认型号名称的正确性。 最后,总结步骤,确保用户能逐步操作,并提醒可能的替代方案和注意事项。需要验证每一步是否可行,比如官网的实际导航路径是否有变化,是否需要注册登录才能下载,这些都需要在回答中提及。</think>从Affymetrix(现属Thermo Fisher Scientific)下载探针序列的FASTA格式文件,需按以下步骤操作: --- ### **步骤1:访问Thermo Fisher官网** 1. 打开官网入口:[Thermo Fisher Affymetrix页面](https://www.thermofisher.com/us/en/home/life-science/microarray-analysis.html) 2. 在搜索栏输入您的芯片型号(例如:HG-U133 Plus 2.0、Clariom S等)。 --- ### **步骤2:定位芯片产品支持页面** 1. 在搜索结果中选择对应的芯片产品。 2. 进入产品详情页后,点击 **“Support”** 或 **“Documents & Downloads”** 选项卡。 --- ### **步骤3:下载探针序列文件** 1. 在支持页面查找以下两类文件: - **Annotation Files**(注释文件):通常为CSV或TXT格式,包含探针ID、基因符号、序列等信息。 - **Library Files**(文库文件):部分芯片提供包含探针序列的独立文件。 2. 若文件为CSV/TXT格式,需手动提取序列并转换为FASTA: - 示例数据列: ``` Probe Set ID, Sequence AFFX-xxx, AGCTAGCTAGCT... ``` - 用Excel或脚本提取两列,按FASTA格式重组: ``` >ProbeSetID AGCTAGCTAGCT... ``` --- ### **步骤4:替代方案(若官网无直接下载)** 1. **Bioconductor R包**: - 安装对应芯片的注释包(如`hgu133plus2.db`)。 - 使用R脚本提取探针序列并保存为FASTA: ```R library(hgu133plus2.db) probes <- mappedkeys(hgu133plus2ACCNUM) sequences <- unlist(as.list(hgu133plus2PROBESEQUENCE[probes])) writeLines(paste0(">", names(sequences), "\n", sequences), "probes.fasta") ``` 2. **第三方数据库**: - 在NCBI GEO或UCSC Genome Browser中搜索芯片平台编号(如GPL570),查找用户上传的FASTA文件。 --- ### **注意事项** - **芯片型号准确性**:确保输入完整的芯片名称(如“HTA-2_0”而非“HTA2.0”)。 - **文件版本**:注释文件可能更新多次,选择最新版本以确保序列准确性。 - **登录权限**:部分文件需注册Thermo Fisher账户后下载。 --- ### **总结** 若需进一步协助,请提供具体芯片型号,可帮您定位更详细的下载路径或脚本处理方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值