CIBERSORTx数据上传格式

最新推荐文章于 2024-11-25 16:43:43 发布

weixin_43364556

最新推荐文章于 2024-11-25 16:43:43 发布

阅读量7.4k

点赞数 5

分类专栏：生物信息

本文链接：https://blog.csdn.net/weixin_43364556/article/details/108553208

版权

生物信息专栏收录该内容

10 篇文章

订阅专栏

CIBERSORTx简介

一个利用反卷积算法将癌组织的表达数据推断各种免疫细胞的占比，默认提供22种作者自己训练得到的分析矩阵（用来分解组织级别的表达数据），也可以自己利用单细胞表达数据来构建这个数据集。
CIBERSORTx是第二个版本，只有网上版本，第一个版本是提供R语言包的，可以直接下载（之前下载过一次，有需要可以问我要）。

数据上传格式

CIBERSORTx需要输入组织的表达数据，我们常见的数据有两种，芯片表达数据和RNAseq表达数据。可以可以按照是否取log分为log形式的和非log形式的，我们上传的时候需要注意。
1.数据的第一行为样本名（不要使用非常规字符），第一列为基因名称，左上角不能为空，也就是基因名称那一列需要有一个列名，自由命名即可，否则会报错。
2.不同的样本之间最好经过normalization的（说的是同一种normalization方法，比如CPM,TPM,FPKM等），因为不同样本之间会有较大的差异。
3.数据应该是一个非log的形式，假如最大值不超过50，那么就认为数据是log形式的，程序会对数据进行2^n操作。
4.基因名称不能有重复，一般芯片数据会有重复，我一般利用limma包的avereps来取平均值之后在进行分析（这里注意，对log之后的表达值取算术平均值，相当于对正常表达值进行取几何平均值）。
5.数据分析的时候是利用一个基因表达的数据（每一种免疫细胞特异的表达数据）对组织表达数据进行分析，所以在分析的时候并没有使用全部的基因表达数据，主要是与免疫细胞相关的基因，假如组织的基因不全，不能够全部覆盖分析所需要的基因，分析也能正常进行分析，但是假如组织表达数据中的基因不足所需要的基因数量的一半，CIBERSORTx会给出一个警告。