数据挖掘:从表达谱芯片原始数据(CEL)到探针注释

CEL文件:探针的信号值和定位信息,是Affymetrix公司的芯片原始数据。

 

CEL files contain information on the probe set's intensity values, and a probe set represents a gene. Information about probes gets extracted from the image data by Affymetrix, an image analysis software.

 

library(affy)

library(limma)

library(stringr)

library(AnnoProbe)

library(magrittr)

 

0. 下载原始 数据

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE66229

 

588aba3f648545d3ac385e9631b8eb49.png

 

mkdir data

cd data

tar -xf GSE66229.TAR

rm GSE66229.TAR

1. 读取原始数据

rawdata <- affy::ReadAffy(celfile.path = "data")

2. rma标准化

rawdata %<>% affy::rma()

exprs <- Biobase::exprs(rawdata)

range(exprs, na.rm = TRUE) # 1.889917 14.620563 不超过50不需要log2转化

# 列重命名

colnames(exprs) <- stringr::str_split(string=colnames(exprs),pattern = "_", simplify = T)[, 1]

3. limma标准化

boxplot(exprs, outline = FALSE, notch = FALSE, las = 2)

#分位数校正

exprs %<>% limma::normalizeBetweenArrays()

boxplot(exprs, outline = FALSE, notch = FALSE, las = 2)

range(exprs, na.rm = TRUE) # 2.09520 14.30741

exprs %<>% as_tibble(rownames = "probe_id")

图片

图片

4. 获取探针注释文件

# 得到探针对应的基因名字

probe2Symbol <- AnnoProbe::idmap("GPL570")

# 看看前几行

head(probe2Symbol,3)

# probe_id symbol

# 193731 1053_at RFC2

# 193732 117_at HSPA6

# 193733 121_at PAX8

5.ID转换

transid <- function(probe2Symbol, exprs, method = "median") {

    probe2Symbol$probe_id %<>% as.character()

    exprs$probe_id %<>% as.character()

    exprs %>%

        dplyr::inner_join(probe2Symbol, by = "probe_id") %>%

        dplyr::select(-probe_id) %>% 

        dplyr::select(symbol, everything()) %>%

        dplyr::mutate(ref = apply(across(where(is.numeric)), 1, method)) %>%

        dplyr::arrange(desc(ref)) %>%

        dplyr::select(-ref) %>%

        dplyr::distinct(symbol, .keep_all = TRUE)

}

 

expression <- transid(probe2Symbol, exprs, method = "median")

  • 12
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值