前面我们通过RcisTarget包的 cisTarget()函数,一句代码就完成了我们的hypoxiaGeneSet.txt文本文件的171个基因的转录因子注释。见:基因集的转录因子富集分析
通过学习,我们知道这个RcisTarget包内置的motifAnnotations_hgnc是16万行,可以看到每个基因有多个motif。而且下载好的 hg19-tss-centered-10kb-7species.mc9nr.feather 文件,也是 24453个motifs的基因排序信息。但是我们留下来了一个悬念,如何从几万个注释结果里面挑选到最后100个富集成功的motif呢?
首先批量计算AUC值
如果是单细胞转录组数据里面,每个单细胞都是有一个geneLists,那么就是成千上万个这样的calcAUC分析,非常耗费计算资源和时间,就需要考虑并行处理,我们这里暂时不需要,所以直接 nCores=1 即可。
其中geneLists和motifRankings来自于前面的教程,见:基因集的转录因子富集分析
motifs_AUC
motifs_AUC
可以看到是 24453个motifs的AUC值都被计算了:
> motifs_AUC
AUC for 1 gene-sets and 24453 motifs.
AUC matrix preview:
jaspar__MA1023.1
geneListName 0.03819963
taipale_cyt_meth__IRX3_NACGYRNNNNNNYGCGTN_eDBD_meth
geneListName 0.05625049
taipale__DBP_