近期需要处理一些TCGA数据库中癌症甲基化methylation的数据,其中需要去除sex和SNPs相关的tcgs,如果自己从原理上来做比较麻烦,比较理想的是调用一些现成的包。
发现,生物信息学这块儿基本上都是R语言的天下,几经调研,发现meffil具有比较便捷的接口可以使用(https://github.com/perishky/meffil)。
因而,目前就是如何在我现有的基于python和pandas的pipeline里嵌入R语言的调用,目前已经走通。接下来介绍一下我的踩坑经历。
0. 安装R语言环境
根据我此次经历,最好安装R 3.5以上版本,否则会碰到一些错误。不管怎样,按如下顺序进行:
sudo apt remove r-base-core
echo "deb http://www.stats.bris.ac.uk/R/bin/linux/ubuntu bionic-cran40/" >> /etc/apt/sources.list
apt-key adv --keyserver keyserver.ubuntu.com --recv-keys E084DAB9
apt-get update
apt-get upgrade
这里值得注意的是E084DAB9可能会报错,可根据报错的ID重新设置public key. 例如我的后来就改为:
sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 51716619E084DAB9
1. 采用rpy2建立python和R语言之间的调用
首先确保R语言已经安装