R是一款自由,免费,开源的一款软件,是用于统计分析,绘图的语言和操作环境。其实从不同角度来说R,R有不同的描述。
从编程的角度来说,R语言就是面向对象的统计编程语言。从使用角度来说的话,就是一款用于数据分析,能进行绘图对数据进行展示的软件,从计算开发的角度来说,R语言是用于统计分析和数据展示的一种语言和环境,在R 的环境下我们进行数据的处理。R语言现在在数据挖掘和分析,机器学习方面发挥了巨大的作用。
R语言有两个主要的概念就是对象和函数,这跟其他的编程语言是相似的。我所学过的C#中也是存在着对象和函数这两个重要的概念。R语言中还包括了向量,向量化,因子,数据子集,矩阵和数组,数据框,类和方法。其中向量是R语言中最基本的数据对象。接下来介绍如何用R语言创建上面提到的。
(1) 向量:向量是用来存储类型相同的数据,包括字符型,数字型,逻辑型等
R中用函数C()来创建一个向量。例如:v<-c(4,7,8,9,), 结果:[1]4.0 7.0 8.0 9.0
(2) 向量化:R中很强大的一个方面是对函数的向量化,这些函数可以直接对向量中的每个元素进行操作。例如:
v1<-c(4,6,87)
v2<-c(34,32.4,12)
v1+v2
[1]38.0 38.4 99.0
例子就是对向量中的每个元素都进行了加法运算。
(3) 因子:提供了一个简单的形式来处理分类数据,因子用水平来表示所有可能的取值。例如:
g<-c(“f”,”m”,”f”)
g
[1]”f” “m” “f”
(4)数据子集:整个数据集中的一部分。R中有多种类型的索引向量,可以提取相应的元素。由于代码比较麻烦,这里就不举例了。
(5)矩阵和数组:矩阵和数组都是带有维度这个特定属性的向量。例如
m<-c(45,23,66,77,33,44,56,12,78,23)
> m
[1] 45 23 66 7733 44 56 12 78 23
> dim(m)<-c(2,5)
> m
[,1] [,2] [,3][,4] [,5]
[1,] 45 66 33 56 78
[2,] 23 77 44 12 23
(6)数据框:是R中用于存储数据表的一种数据结构,结构与二维矩阵有点相似。对于R而言数据框是一类特殊的列表。例如:
> my.dataset <-data.frame(site=c('A','B','A','A','B'),
+ season=c('Winter','Summer','Summer','Spring','Fall'),
+ pH = c(7.4,6.3,8.6,7.2,8.9))
>my.dataset
site season pH
1 A Winter 7.4
2 B Summer 6.3
3 A Summer 8.6
4 A Spring 7.2
5 B Fall 8.9
(7)类和方法:R语言中的类和方法跟其他计算机语言的相似,这里就不多做介绍了。
R语言现在越来越被公司和业界的人所认可。