基因探针c语言编程,如何零代码实现芯片探针表达矩阵转化为基因表达矩阵?...

GEO下载到的标准化后的表达矩阵(Series Matrix File(s)文件)或是下载原始.CEL文件自己归一化后形成的表达矩阵,每行的标注是以探针的形式给出的,例如。

3398158387119692480-115w.png?Expires=1621282510&OSSAccessKeyId=LTAI4FnEjz5mYKJJ4CpRXVuL&Signature=7PsUfUp8fQfFrwqippBF46gORao%3D

这样在分析差异基因之后,并不知道哪个探针对应哪个基因,希望能否先得到每行以基因形式标注的表达矩阵。

我在尝试了多种方法之后,发现GSEA桌面软件中集成的一个“CollapseDataset Page”小软件可以快速实现这一操作,故分享给大家。

在进行转化之前,需要准备两种文件:

安装并运行“GSEA v4.0.3 for Windows”(https://www.gsea-msigdb.org/gsea/downloads.jsp),进入界面后点击左侧栏目的“Load data”,会跳出加载标签页,将刚准备好的两个文件拖入加载框,再点“加载这些文件”按钮。

3398162284802300028-115w.png?Expires=1621282510&OSSAccessKeyId=LTAI4FnEjz5mYKJJ4CpRXVuL&Signature=EKOw2F18jZFiszBRyfPUUaXT0EM%3D

成功加载数据后,点击左侧栏目的Collapse Dataset小工具,会跳出该小工具的标签页。首先,在表达数据集下拉菜单中选取你刚才加载的表达矩阵;接着点击芯片平台右侧的“…”,选取网站上现成的chip文件或刚加载的自制chip文件;再接着选取“多个探针对应一个基因”的转换策略,目前使用较多的策略是:在每个样本中,如果有n个探针对应一个基因,那么就使用n个探针的中位数探针值作为该基因在这个样本中的表达量;因此,这里就选择“Median”;同理也可根据需要选择其他策略;下面可以继续设置分析的命名以及输出结果的文件夹。

3398162757248984558-115w.png?Expires=1621282510&OSSAccessKeyId=LTAI4FnEjz5mYKJJ4CpRXVuL&Signature=%2Frf%2BuC510nX360YHfvA8ytLn2SU%3D

最后点击“Run”,一般几秒钟就会运行完毕。

打开输出结果的文件夹,可以找到一个类似“_collapsed_to_symbols.gct”的文件,就是转化成功的基因级的表达矩阵文件。

3398164395779029899-115w.png?Expires=1621282510&OSSAccessKeyId=LTAI4FnEjz5mYKJJ4CpRXVuL&Signature=v7KCizLhgaVRe78bfojeZjfuZUw%3D

可以根据需要,用EXCEL加工回常规的表达矩阵,用于下一步分析。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值