网络上经常看到有人问数据分析是学习Python好还是R语言好,还有一些争论Python好还是R好的文章。每次看到这样的文章我都会想到李舰和肖凯的《数据科学中的R语言》,书中一直强调,工具不分好坏,重要的是解决问题的思路,就算是简单的excel,也能应付数据分析中的大部分问题。再者Python和R本来就没有什么好对比的,一门是计算机工程语言,一门是统计语言,只有将两者结合起来,才能发挥更大的威力,不是吗,对于数据分析的人来说,难道不是两样都要掌握的吗?
rpy2是Python调用R程序的模块,旨在方便Python调用R中的相关函数,而不需要先将数据写入txt再传给R来分析,从而可以做到全流程自动化。在pandas 0.18的模块中也添加了rpy2的支持,进而更方便沟通了Python和R的数据流转,构建数据分析的生态系统。
rpy2的安装还是比较麻烦的,试了很多方法,百度了很多网页最终安装成功,做些笔记备忘。
我的安装环境是:
- win7_64bit
- python3.5_64位,使用的是Anaconda发行版。Anaconda发行版集成了很多Python的有用的数据分析模块,其使用界面和MATLAB很相似,用起来很方便,而且还很方便虚拟出不同版本的Python环境,对那些既想用python2.7,又想用python3.x的同学来说是很好的选择。
- R使用的是Revolution R Open 3.2.3_64bit,这是Revolution R现在已经被微软收购了,改为MRO。MRO和CRAN的R没有什么区别,只是改进了多进程并行计算的性能,比原生的R确实有一定的性能提升。当然需要MRO网站上对应的数学计算库M