CIBERSORTx简介
一个利用反卷积算法将癌组织的表达数据推断各种免疫细胞的占比,默认提供22种作者自己训练得到的分析矩阵(用来分解组织级别的表达数据),也可以自己利用单细胞表达数据来构建这个数据集。
CIBERSORTx是第二个版本,只有网上版本,第一个版本是提供R语言包的,可以直接下载(之前下载过一次,有需要可以问我要)。
数据上传格式
CIBERSORTx需要输入组织的表达数据,我们常见的数据有两种,芯片表达数据和RNAseq表达数据。可以可以按照是否取log分为log形式的和非log形式的,我们上传的时候需要注意。
1.数据的第一行为样本名(不要使用非常规字符),第一列为基因名称,左上角不能为空,也就是基因名称那一列需要有一个列名,自由命名即可,否则会报错。
2.不同的样本之间最好经过normalization的(说的是同一种normalization方法,比如CPM,TPM,FPKM等),因为不同样本之间会有较大的差异。
3.数据应该是一个非log的形式,假如最大值不超过50,那么就认为数据是log形式的,程序会对数据进行2^n操作。
4.基因名称不能有重复,一般芯片数据会有重复,我一般利用limma包的avereps来取平均值之后在进行分析(这里注意,对log之后的表达值取算术平均值,相当于对正常表达值进行取几何平均值)。
5.数据分析的时候是利用一个基因表达的数据(每一种免疫细胞特异的表达数据)对组织表达数据进行分析,所以在分析的时候并没有使用全部的基因表达数据,主要是与免疫细胞相关的基因,假如组织的基因不全,不能够全部覆盖分析所需要的基因,分析也能正常进行分析,但是假如组织表达数据中的基因不足所需要的基因数量的一半,CIBERSORTx会给出一个警告。