R语言入门

R下载地址

https://cran.r-project.org/

R使用

程序内置函数和用户自编函数提供的,一次交互式会话期间的所有数据对象都被保存在内存中
R语句由函数和赋值构成。 R使用 <- ,

牛刀小试

使用函数 c()以向量的形式输入月龄和体重数据
age <- c(1,3,5,2,11,9,3,9,12,3);
weight <- c(4.4,5.3,7.2,5.2,8.5,7.3,6.0,10.4,10.2,6.1);

均值

mean(weight)
[1] 7.06

标准差

sd(weight)
[1] 2.077498

相关度,是指两个事物间存在相互联系的百分比

cor(age,weight);
[1] 0.9075655

R语言数据类型

基本类型:数值型、字符型、逻辑型( TRUE/FALSE )
对象类型:标量、向量、矩阵、数组、数据框和列表
标量是只有一个元素的向量
eg: f <- 3
向量访问,通过下标
a <- c(1,2,3,5,6)
a[1];
a[c(1,4)]
a[1:5]
输出结果:
1
1 5
1 2 3 5 6

矩阵

矩阵是一个二维数组,每个元素具有相同的模

创建一个5*4的矩阵

y <-matrix(1:20,nrow=5,ncol=4,byrow = T) //byrow=T 按行排列数据,byrow = F ,按列排列数据(默认)
下标访问或者赋值
y[2, 2];
y[2, 3:4];
y[3:4, 3:4]
y[2, ];
y[ , 2]
输出结果:
6
7 8
11 12
15 16
5 6 7 8
2 6 10 14 18

主要运算函数
dim(y) //纬度
nrow(y)
ncol(y)
t(y) //转置
矩阵合并
aa <- matrix(1:6, 3, 2);
bb <- matrix(7:12, 3, 2)
cbind(aa, bb) #按列合并
rbind(aa, bb) #按行合并

数组

数组是矩阵的自然推广,不局限于二维,可以多维,每个元素也是具有相同的模
各数据结构如图

R语言图形

散点图

plot(age,weight);

条形图

条形图通过垂直的或水平的条形展示了类别型变量的分布(频数)
heigh <- c(10,3,69);
barplot(heigh);
barplot(heigh,main=”title”,xlab=”x”,ylab=”y”);

饼图

pie(x,labels);
其中 x是一个非负数值向量,表示每个扇形的面积,而 labels则是表示各扇形标签的字符型向量。
slices <- c(10,12,4,16,8);
lbls <- c(“US”,”UK”,”Australia”,”Germany”,”France”);
pie(slices,labels=lbls,main=”pie”);

直方图

直方图通过在 X 轴上将值域分割为一定数量的组,在 Y 轴上显示相应值的频数
hist(x)

核密度图(观察连续型变量分布的有效方法)

slices <- c(10,12,4,16,8);
d <- density(slices);
plot(d)
其中的 x是一个数值型向量。由于 plot()函数会创建一幅新的图形,所以要向一幅已经存在的图
形上叠加一条密度曲线,可以使用 lines()函数
直方图和核密度图的结合使用

图形参数

图形参数的选项来自定义一幅图形的多个特征(字体、颜色、坐标轴、标题)。
type=”b” 同时绘制点和线
plot(age,weight,type=”b”);
另外一种方法是通过函数 par()来指定这些选项为par(optionname=value,…)
plot(age,weight,lty=2,pch=17,type=b);
等价于
par(lty=2,pch=17,type=b);
plot(age,weight);

参数类型和描述

pch 指定绘制点时使用的符号
lty 指定线条类型
lwd 指定线条宽度
颜色
col.axis 坐标轴刻度文字的颜色
col.lab 坐标轴标签(名称)的颜色
col.main 标题颜色
col.sub 副标题颜色
fg 图形的前景色
bg 图形的背景色

R语言和Hadoop 完美结合

模拟场景:对1PB的新闻网站访问日志做分析,预测未来流量变化
步骤:
一:用R语言,通过分析少量数据,对业务目标建回归建模,并定义指标
二:用Hadoop从海量日志数据中,提取指标数据
三:用R语言模型,对指标数据进行测试和调优
四:用Hadoop分步式算法,重写R语言的模型,部署上线

这个场景中,R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路,所有有事情都用Hadoop去做,没有数据建模和证明,”预测的结果”一定是有问题的。以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的“预测的结果”也一定是有问题的。
所以让二者结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值