大数据处理之Python与R包联调（devtools and tcga methylation）

最新推荐文章于 2022-10-15 21:58:42 发布

天羽东臻

最新推荐文章于 2022-10-15 21:58:42 发布

阅读量368

点赞数

分类专栏：医疗+人工智能文章标签：大数据 python linux r语言

本文链接：https://blog.csdn.net/lvxingvir_sigma/article/details/112505273

版权

近期需要处理一些TCGA数据库中癌症甲基化methylation的数据，其中需要去除sex和SNPs相关的tcgs，如果自己从原理上来做比较麻烦，比较理想的是调用一些现成的包。

发现，生物信息学这块儿基本上都是R语言的天下，几经调研，发现meffil具有比较便捷的接口可以使用（https://github.com/perishky/meffil）。

因而，目前就是如何在我现有的基于python和pandas的pipeline里嵌入R语言的调用，目前已经走通。接下来介绍一下我的踩坑经历。

0. 安装R语言环境

根据我此次经历，最好安装R 3.5以上版本，否则会碰到一些错误。不管怎样，按如下顺序进行：

sudo apt remove r-base-core
echo "deb http://www.stats.bris.ac.uk/R/bin/linux/ubuntu bionic-cran40/" >> /etc/apt/sources.list
apt-key adv --keyserver keyserver.ubuntu.com --recv-keys E084DAB9
apt-get update
apt-get upgrade

这里值得注意的是E084DAB9可能会报错，可根据报错的ID重新设置public key. 例如我的后来就改为：

sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 51716619E084DAB9

1. 采用rpy2建立python和R语言之间的调用

首先确保R语言已经安装࿰

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

天羽东臻

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python-devtools:Python开发工具

04-29

python devtools Python缺少的调试打印命令和其他开发工具。有关更多信息，请参阅。安装只是 pip install devtools[pygments] pygments不是必需的，但是如果安装了pygments ，则输出将突出显示并且更易于阅读。除python 3.6、3.7或3.8外， devtools没有其他必需的依赖项。如果您已经安装了python 3.6+和pip ，那就很好了。用法 from devtools import debug whatever = [ 1 , 2 , 3 ] debug ( whatever ) 输出： test . py : 4 < module> : whatever : [ 1 , 2 , 3 ] ( list ) 例如，这只是冰山一角： import numpy as np data =

Python cdp ( Chrome DevTools Protocol ) 爬虫

freeking101的博客

07-17

9605

可以说，利用 Develop Tools 实现的功能我们都可以通过 Chrome DevTools Protocol 实现，Chrome 自己也内置了一个官方的实现，用 Chrome 直接访问页面信息的 devtoolsFrontendUrl 即可看到，和按 F12 调用出来的 Develop Tools 基本一模一样。如果你想看看页面在远程服务器的 Chrome 里渲染的结果，在开发者工具里切换到 Performance，勾选 Screenshots，点刷新图标，重新加载完成就可以看到逐帧加载的截图。

参与评论您还未登录，请先登录后发表或查看评论

Python数据挖掘项目：基于三种肝癌样本数据的PCA分析以及神经网络分类模型的构建

qq_42216093的博客

05-18

1732

作者CSDN：进击的西西弗斯本文链接：https://blog.csdn.net/qq_42216093/article/details/115587741 版权声明：本文为作者原创文章，未经作者同意禁止转载或盗用 1.项目说明及流程概要：项目说明本文项目是我本科毕设项目其中的数据挖掘部分，包括对三种类型的肝癌基因表达数据的PCA分析以及构建神经网络分类模型。以下是在本文的数据挖掘工作开始之前所做的准备工作：在TCGA数据库中检索并下载41位肝细胞癌患者的基因表达数据以及相应的癌.

python selenium chrome 控制devtools 一些线索

wujiuqier的博客

12-19

3134

chrome webdriver下载地址：http://chromedriver.storage.googleapis.com/index.html 注意和国产浏览器的内核版本对应（星愿浏览器80.0.3987.163内核可以使用80.0.3987.106的webdriver）如果要先开浏览器再用selenium控制的话，需要给chromium添加启动参数： twinkstar.exe --remote-debugging-port=9222 python调用现有星愿浏览器的初始化 from s.

vue_devtools调试工具

07-25

Vue.js 是一款流行的前端JavaScript框架，它以组件化开发、数据绑定和响应式系统为核心，大大简化了Web应用的构建。Vue Devtools 是一个专为 Vue.js 应用程序设计的强大浏览器开发者工具，它允许开发者深入理解应用...

java计算机毕业设计基于BS架构的疫情包联信息管理系统的设计与实现源码+系统+数据库+部署+lw文档.

02-24

项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA 运行环境：Win10、JDK1.8 数据库：MySQL5.7/8.0 运行服务器：Tomcat7.0 CSDN太坑了...

计算机毕业设计JAVA基于BS架构的疫情包联信息管理系统的设计与实现mybatis+源码+调试部署+系统+数据库+lw

06-02

基于B/S架构高校疫情期间学生日常管理系统的分析与设计

最新发布

07-09

管理员负责管理学生和老师之间的包联情况，负责为老师分配其包联的学生进行相关操作。保障在疫情期间学生和教师之间，如果学生出现意外情况，能快速联系到负责包联的老师进行解决。并负责每日推送疫情最新消息。

基于BS架构高校疫情期间学生日常管理系统的分析与设计.zip

04-04

基于B/S构高校疫情期间学生日常管理系统的分析与设计开发语言Javamysql 学生日常管理系统主要面向三类用户：学生，教师，管理员用户。用户在登录之后可以选择修改个人登录密码，包含以下模块： 4.2.1用户登录、...

meffil:用于分析DNA甲基化数据的高效算法

05-04

美菲 Min JL，Hemani G，Davey Smith G，Relton C，Suderman 。生物信息学。 2018年6月21日用于分析使用Infinium HumanMethylation450或MethylationEPIC BeadChips生成的DNA甲基化数据的高效算法：使用并行化对大型数据集进行功能归一化。混合使用Infinium HumanMethylation450和MethylationEPIC BeadChips进行数据集的标准化。在功能标准化过程中包括用户定义的固定效应和随机效应。使用预定义和用户定义的参考数据集进行细胞计数估计。使用预定义和用户定义的微阵列探针注释。整个表观基因组关联研究（使用来自任何标准化管道的数据）。拷贝数估计。报告生成总结了所有步骤。可以在找到手册在目录中可以找到使用其中许多功能的示例。安装

python selenium firefox 控制devtools 一些线索

wujiuqier的博客

03-15

509

版本55或以上的Firefox不支持Flash自动播放。建议使用Firefox 52.9.0 延长支持版。此版本需要使用Gecko Driver 0.17.0才能正常使用。但是不支持 set_window_size（会报错selenium.common.exceptions.WebDriverException: Message: setWindowRect），所以必须手动调整视口尺寸。此版本还没有移除GCLI开发者工具栏，可以通过快捷键 Shift + F2呼出。调整视口尺寸的GCLI命令是res

生信分析：TCGA数据id转换(python)

Fng的博客

07-13

1927

python实现TCGA id转换

python临床数据_TCGA临床数据的提取

weixin_30865253的博客

01-11

2271

TCGA临床数据的下载这里不做介绍。下载后解压数据会得到包含多个子文件夹的的文件，如下所示：TCGA文件.png每个子文件夹下通常包含XML文件，有的也会包含多个文件。但我们需要用到的就是XML文件，从中提取得到临床信息。XML文件内容如下图的例子所示：xml.png我们需要从每个子文件下面中的XML文件中提取临床信息，并合并到一起形成完整的临床数据。这里使用Python，代码如下：import ...

倚树探星的博客

04-20

2480

接上一篇文章，现在开始筛选数据组成count矩阵。上一篇：TCGA下载GBM患者的RNA-seq数据上一篇结束，下载到初始数据（图一图二是下载之后的文件夹以及每一个文件夹中的count数据文件）需要从每一个count数据文件中筛选出gene_name、gene_type为lncRNA、FPKM表达量，效果图如下：由于不会R语言，就用python来实现步骤：从每一个文件夹中提取出来count数据文件，整理到一个新文件夹中将所有count数据文件中需要的列提取出来，整合到一个文件中.

python调用R第三方包

lingan_Hong的博客

12-27

5887

前面写到《python3调用R》这篇文章。我们成功的搭建了python下调用R的环境。下来来探讨一下，如何调用R包来处理python里面的数据。我们把脚本装再r_script 里面并，用引号标注起来，然后就可以使用啦。In [14]: r_script = ''' ...: library(randomForest) # 导入随机森林包 ...: ## use data set

python : 批量下载R语言库包

belldeep的专栏

10-12

1957

R语言设置CRAN使用清华大学镜像，命令如下：options(repos=structure(c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")))

windows系统下R语言如何安装rPython包？

云金杞

11-07

2576

系统配置： win10;64位 R3.1.1,32位 python3.5;32位安装步骤： 1、安装R包 install.packages("devtools") library(devtools) 2、下载rPython-win https://github.com/cjgb/rPython-win 下载好之后，解压到一个单独的文

Python配置R语言包过程、问题及解决

Aaronnn1的博客

10-15

1721

python配置R包，过程、问题及解决

Python实现读取多个/批量txt文件合并成一个txt（示例为tcga数据处理）