本节书摘来自华章出版社《数据科学:R语言实现》一 书中的第1章,第1.1节,作者:R for Data Science Cookbook 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.1 引言
R语言是数据科学家的主流编程语言。基于著名的数据分析网站KDnuggets的民意测验,3项(2012年到2014年)的调查显示,R语言在数据分析、数据挖掘和数据科学领域中是最受欢迎的语言。对许多数据科学家来说,R语言不仅是一门编程语言,而且相关软件还提供了交互式的开发环境,支持运行各种数据分析任务。
R语言在数据操作和分析方面有许多优势。下面是3个最显著的优势。
开源并且免费:用户使用SAS或者SPSS需要购买使用许可。而用户使用R语言是免费的,并且可以方便地学习如何实现每一个函数源代码中的统计算法。
强大的数据分析函数:R语言在数据科学领域很出名。许多生物学家、统计学家和编程人员在使用CRAN(Comprehensive R Archive Network)全球发布之前,就把他们的模型封装在R程序包里了。这种机制允许任何用户通过CRAN包下载和安装,开展分析项目。
易于使用:由于R语言是一种自解释的高级语言,使用R语言编程非常简单。R语言用户只需要知道如何使用R函数,并借助强大的文档即可知道每一个变量如何工作,而不需要了解其背后复杂的数学知识,就可以轻松地执行高级数据分析任务。
这些优势使得复杂的数据分析变得更加简单易行。对此,R语言用户都深信不疑。而且,R语言尤其适合基础用户或者开发人员。对于一名R语言用户,我们只需知道函数如何工作,而不需要知道函数实现的具体知识。类似于SPSS,我们可以通过R语言的交互式shell,运行各种类型的数据分析任务。另外,作为一名R语言开发人员,我们可以编写函数来创建新的模型,甚至可以把实现的函数封装在包中。
本书并不会讲解如何从零开始编写R程序。相反,本书的目标是要讨论如何成为一名R语言开发人员。本章的主要目的是向用户展示如何定义函数,从而加速分析过程。我们首先介绍如何创建函数,然后介绍R环境,接着讲解如何创建匹配参数。 本章的内容还会涵盖如何执行R语言函数式编程,如何创建高级函数,例如中缀操作符和替代,以及如何处理错误和调试函数。