Python正在取代R,成为数据科学界新宠

转载 2013年12月03日 16:52:30

择的编程语言,但它正在迅速地让位给Python。最大原因是:Python更通用且相对容易学习,而R需要掌握复杂的编程环境。

R:不是真正的语言

人们学习R很困难的一部分原因是,它并不是一种真正的编程语言。John Cook是一位R专家,他曾说:“R是一个做统计的交互环境,不是一种真正的编程语言。把R看做包含有编程语言的交互环境会更有帮助。”

但正如Bob Muenchen强调的,R甚至对于那些精通SAS和SPSS数据统计工具的人来说都是困难的。关于R为分析师降低了复杂性的问题,还有待争议,虽然R包含宏和矩阵语言,此外,你还需要掌握像SPSS等工具。但是对于那些期待R去实现类似Stata的功能的人,他们注定要失望。

综合考虑,R的与众不同使它较难学习。

Python降低数据科学技术壁垒

然而,Python更加平易近人。一方面,各种各样的开发人员都熟悉Python并在广泛的应用领域使用它。不像R几乎只用于数据分析,一个开发人员在第一次编写他的网站脚本或其他应用程序时,就可以体验到Python。

随着企业竭尽所能地使用数据,他们也正在努力寻找合格的数据科学家。然而,正如Gartner的Svetlana Sicular所假设的,在本公司内对员工培训一些简单的大数据技术,比培训新雇佣的数据科学家复杂的商业知识更有效率。

Python”所向披靡“

但是,除了可以利用现成的Python开发者资源,用Python语言做数据科学的最大好处之一是:在不同的应用程序中使用一种编程语言所增加的效率。德克萨斯大学奥斯汀分校研究助理Tal Yarkoni解释说:“事实证明,使用一种语言来做所有的开发和分析的好处是相当可观的。一方面,当你可以用同一种语言做所有的事情的时候,你就不必一直提醒自己:Ruby使用blocks而不是comprehensions,在Python中得到数组的大小应当调用len(array),而不是array.length……

另外,你不需要再担心项目的不同模块采用不同语言的接口问题。没有什么比在Python中解析一些文本数据,然后将它转换成内部使用所需要的格式,最后才发现必须将它以另一种格式写到磁盘上,以便R或者MATLAB去做分析更烦人的了。只要使用单一的语言,所有这些开销都将消失。”

我们可以夸赞某个技术完美地解决了一个问题,但往往胜出的技术是解决一系列问题的通用工具。正如AppNexus优化和分析主管David Himrod指出:“AppNexus面临的最大挑战之一是如何让不同的员工使用相同的技术来工作。Python为具有不同背景的员工(尤其是工程师,数学家和分析师)提供了一种常见的、容易理解的语言,可用于公司将新功能进行标准化。”

使用Python的主流数据科学

相比R丰富的数据分析能力,Python尚有很多不足,但是它正在迅速的缩小差距。请记住:Python成功的关键并不是它比R或其他分析工具能够处理更神秘的功能,而在于它的平易近人和通用的性质。数据科学正在走出头号怪胎的领域,上个月在纽约举行的O'Reilly's Strata会议这一点尤为明显:过去的与会者多是学术领域的博士,现在则是关键的业务分析师和其他被企业要求去弄清楚大数据业务的人。

相比R,这种新的,早期的“数据科学家”,将更多地使用Python。Python使用起来相对简单,而且他们可能已经将其用于一个项目中了。至于在其他市场,相比于那些功能强大但复杂的工具,熟悉或者容易学习的工具更容易取胜。

举报

相关文章推荐

Python正在取代R 成为数据科学界新宠

摘要:R是数据科学家历来选择的编程语言,但它正在迅速地让位给Python。最大原因是:Python更通用且相对容易学习,而R需要掌握复杂的编程环境。 R:不是真正的语言 人们学习R很困难的一部分原...

用R&Python在云端运行可扩展数据科学

 用R&Python在云端运行可扩展数据科学 发表于2015-10-14 08:10| 2514次阅读| 来源Analytics Vidhya| 1 条评论| 作者Kunal Ja...

精选:深入理解 Docker 内部原理及网络配置

网络绝对是任何系统的核心,对于容器而言也是如此。Docker 作为目前最火的轻量级容器技术,有很多令人称道的功能,如 Docker 的镜像管理。然而,Docker的网络一直以来都比较薄弱,所以我们有必要深入了解Docker的网络知识,以满足更高的网络需求。

如何成长为数据科学家

随着大数据时代的来临,数据分析(科学家)人才也步入了紧缺人才行列。根据麦肯锡报告,仅仅在美国市场,2018年大数据人才和高级分析专家的人才缺口将高达19万。此外美国企业还需要150万位能够提出正确问题...

Python 数据科学入门

http://python.jobbole.com/85394/ Python 在数据科学领域越来越流行了。它的流行不无道理。 Python 容易学,有超强数据科学库,并且和 Hadoop 以及 Sp...

大数据时代的新科学范式:数据密集型科学

1、什么是科学范式? “范式”(paradigm)这一概念最初由美国著名科学哲学家Thomas Samuel Kuhn于1962年在《科学革命的结构》中提出来,指的是常规科学所赖...

数据科学中R VS Python:获胜者是...

数据科学中R VS Python:获胜者是…在”最佳”数据科学工具的比赛中,R和Python都有自己的优缺点.对二者的选择取决于使用背景,学习花费和其他常用工具的需要 Martijn Theuwiss...

数据科学部门如何使用Python和R组合完成任务

概述和那些数据科学比赛不同,在真实的数据科学中,我们可能更多的时间不是在做算法的开发,而是对需求的定义和数据的治理。所以,如何更好的结合现实业务,让数据真正产生价值成了一个更有意义的话题。数据科学项目...

R读取数据

一、文本格式 1、csv文本格式(即逗号分隔文件): > data #说明:header = T(TURE)是默认状态,有标题栏,可修改为F(FALSE)。 2、txt文本格式: > data #说...

在Ubuntu 14.04 64bit下用Python搭建数据科学研究环境

大数据时代已经来临,使用python来研究数据科学这门新崛起的学科已经越来越成为一直潮流. 下面是我根据网上的资料,结合自己的实践整理的文档, 以备参考. 在Ubuntu下安装Python模块通常可以...

Python数据科学学习进阶

Python菜鸟到Python Kaggler 如果你梦想成为一名数据科学家,或者已然是数据科学家的你想扩展自己的工具库,那么,你找对地方啦。本文旨在为做数据分析的Python人提供一条全方位的学...
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)