rstudio python_如虎添翼:用Python与C++扩展R语言的应用场景

25ff2e0185643bde3e1651e79d488ed6.png

R语言是心理与统计学界中最受欢迎的编程语言之一。相比商业统计软件,R语言免费、开源、扩展性强;而相比其他开源编程语言,R的基本操作相对简单,统计与作图模块完善,适合进行统计分析工作。

然而,R语言并非没有劣势。首先,R程序包的覆盖范围没有那么完美,在有些情况下可能会面临“无R包可用”的情况。第二,R是一种脚本语言,而且许多底层运算模式没有针对运算速度做出太多优化。因此,R的运行速度相对较慢,尤其在进行数据量较大的循环运算时,运行时间可能会达到编译语言的数十倍。 R的短处恰恰是其他编程语言的长处。例如,Python作为应用范围最广的脚本语言之一,在许多领域有更多的程序包支持;而C++作为一种编译语言,在进行复杂运算时有明显的速度优势。幸好,R语言中提供了与Python和C++的协作程序包。利用这些程序包,我们可以把R处理起来较为困难的部分在另一种程序中运行,之后将运行结果反馈给R,在R中进行下一步分析。当然,为了完成这一任务,对参与协作的另一种语言也需要有一些基础的了解。Python和C++入门知识超出了本文的范围,对Python和C++还比较陌生的读者可以在网上找一些相关的基础资料。 下面,我们会在两种典型心理学使用场景中介绍R与Python、C++连接的程序包。 3d42750d580eb939414c434a6b8303d3.gif R与Python的协作:reticulate 基本信息 reticulate是一个连接R与Python的程序包(官方网站如下)。
https://rstudio.github.io/reticulate/
我们可以使用这一程序包调用Python模块的功能。reticulate的安装方式和其他CRAN程序包一样,可以直接通过install.packages命令来安装:
install.packages("reticulate")
同时,为了调用Python模块,我们还需要在计算机中装好Python和需要的模块,并将Python程序所在目录放在PATH中。 之后,就可以采用reticulate的import功能来导入模块,并使用“$”符号代替“.”进行Python的面向对象编程。 (ps. 这个包的名称来自于东南亚的一种蟒蛇网纹蟒 reticulated python,估计当时作者为了找一个r开头的蛇的名字也是费了些心思……) 应用示例 我曾经遇到过的一个使用场景是这样:在一个皮肤电研究中,我需要从acq文件里读取皮肤电信号的源数据,并进行一些后续处理。然而,我只找到了一个可以读取acq文件的Python包:bioread。因此,我需要借助Python中的bioread包(如下)将数据读入,之后用R进行下一步处理。
https://pypi.org/project/bioread/
使用的代码如下(事先需要安装Python和bioread包):
library(reticulate)bioread "bioread") acqfile $read_file(acqfile # 查看acq文件对象信息# AcqKnowledge file (rev 132): 4 channels, 2000.0 samples/secacqfile$channels # 查看acq文件中的通道# [[1]]# Channel EDA filtered, differentiated: 123787 samples, 2000.0 samples/sec, loaded: True# # [[2]]# Channel EKG - ERS100C: 61893 samples, 1000.0 samples/sec, loaded: True# # [[3]]# Channel RESP - RSP100C: 241 samples, 3.90625 samples/sec, loaded: True# # [[4]]# Channel EDA - GSR100C: 123787 samples, 2000.0 samples/sec, loaded: Trueacqdata1 $channels[[1]]str(acqdata1)# num [1:123787(1d)] -101 -101 -101 -101 -101 ...#可以看到,从Python对象中提取的acqdata1已经是一个R向量了。#因此,之后都可以直接使用R语言对其进行分析#例如:mean(acqdata1)# [1] -110.7604
需要注意的是,只有Python中一些特定种类的对象可以被转换成R语言变量。reticulate官网上给出的对照表如下:

9c4410a8e5b6136df8369d3a46b06ca4.png

因此,对于一些Python模块中自行定义的对象,需要提取出上述种类的子数据才能继续用R做处理。(例如,在上述示例中,acqfile是一个AcqKnowledge file对象,不能直接使用R语言进行处理;但acqfile$channels[[1]]$data就是一个常规的数组了,可以直接转化成R中的向量。) 3d42750d580eb939414c434a6b8303d3.gif R与C++的协作:Rcpp 基本信息 Rcpp是最受欢迎的R语言扩展包之一(官方网站如下)。
http://www.rcpp.org/
我们可以使用这一程序包在R中调用C++函数。Rcpp同样可以直接通过install.packages命令来安装:
install.packages("Rcpp")
同时,我们还需要安装C++编译器。 对于windows用户,直接安装Rtools即可。
https://cran.r-project.org/bin/windows/Rtools/index.html
要注意的是,使用Rcpp通常需要我们自己写出一个符合Rcpp要求的C++函数,对编程知识的要求相比reticulate要高一些。 应用示例 我遇到过的Rcpp使用场景是这样:我需要做一个心理模型的模拟,其中包含数亿次量级的迭代计算。这一工作可以使用R函数实现,但需要的运行时间太长,超出了接受范围。因此,我将这一函数使用Rcpp重写。示例代码如下(为简明起见,这里使用了一个非常简单的迭代函数): *add_one_zh.cpp*
#include using namespace Rcpp;//在函数开始之前的部分,(#include ,using namespace Rcpp;,//[[Rcpp::export]])//是C++和Rcpp需要的一些头文件。//如果在RStudio中创建新C++文件,RStudio会自动生成这些头文件。//[[Rcpp::export]]NumericVector add_one(int time) {//这个函数会计算一个向量,其中第一个元素是0,之后每个元素相对上一个元素增加1//注意:C++中的注释开头是“//”//C++中,所有变量的类型和函数返回值的类型都需要主动声明 (例如NumericVector)。//每一句代码要以分号结束//而且数组序号从0开始//NumericVector是Rcpp中的一种数据类型。//使用这种类型,可以保证函数返回值可以被转化成R向量。NumericVector x(time+1);  x(0) = 0;  for(int i = 1; i <= time; i++){    x(i) = x(i-1) + 1;  }  return x;}
*R程序*
library(Rcpp)sourceCpp("add_one_zh.cpp") #将Rcpp函数导入R中t1add_one(100000000) # 运行Rcpp函数t2t2-t1 # 计算运行时间# Time difference of 1.545115 secs#相同功能的R函数add_one_slow x){  y "integer",   y[1] = 0  for(i in 1:x+1){    y[i] y[i-  }  return(y)}t1add_one_slow(100000000) # 运行Rcpp函数t2t2-t1 # 计算运行时间# Time difference of 18.90944 secs
从运行时间可以看出,本例中实现相同功能的C++函数比R函数快了十倍有余。 3d42750d580eb939414c434a6b8303d3.gif 结语 本文对R语言中连接Python和C++的两个程序包reticulate和Rcpp做了简单介绍。利用Python和C++的优势,我们可以扩展R程序可以应用的程序包,加快R语言的运行速度。 以上介绍方法只是R语言扩展方式中的很小一个部分,还有许多其他的功能等待大家发现。感兴趣的朋友可以参考上述程序包官网上的手册和相关指导文件。祝大家写代码愉快! 本文涉及代码
https://github.com/Sciurus365/RPyCpp
其他资料 Advanced R中Rcpp相关的章节:
http://adv-r.had.co.nz/Rcpp.html
另一本Rcpp的参考书籍:Rcpp for everyone
 https://teuder.github.io/rcpp4everyone_en/

作者信息 :崔竞蒙 Radboud University行为科学硕士研究生 排版 : 李昊 往期精选
  • 大话Python第2期——基础入门2

  • 大话Python第1期——Python基础入门

  • 用R进行多层中介的完整流程:从数据预处理到置信区间的生成

  • R语言和Jspsych编写本地和在线心理学实验和问卷教程

  • R-studio 中少为人知的秘技

  • ...

重要通知 小伙伴们,感谢您浏览到这里 。我们在每周六晚八点准备了优质且精彩的学术资源分享,如果您不想错过,我们强烈建议您将“荷兰心理统计联 盟”设为星标,三步搞定! 第一步: 点击顶部蓝色字体“ 荷兰心理统计联盟 ”,进入我们公众号的主页; 第二步: 点击页面右上角“ ... ”,弹出选项卡; 第三步: 点击“ 设为星标 ”。 afb9ab80a16cfe37f87a76439f39a49c.gif

f76f623190da76939131ef2394d54cbe.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值