【数据分析入门】R语言数据类型及常见语句整理

如果我是温帅帅

已于 2022-04-07 16:00:26 修改

阅读量554

点赞数

分类专栏：数据分析文章标签： r语言

于 2022-04-07 15:13:03 首次发布

本文链接：https://blog.csdn.net/weixin_39348931/article/details/124012836

版权

数据分析专栏收录该内容

34 篇文章 2 订阅

订阅专栏

一、向量、标量

x<-c(1,2,3,4,5)
##1-100
c(1:100)
##等差数列，间隔2
seq(from=1,to=100,by=2)
##输出10个数
seq(from=1,to=100,length.out=10)
##重复向量
rep(2,4)
rep(x,3)
##筛选数据
x[x>3]
x[c(4:18)]
x[c(T,F)]
##增加元素
append(x=v,values=99,after=5)
##求余
y%%x
##整除
y%/%x
##是否包含
c(1,2,3) %in% c(1,2,3,4,5,6)

##向量运算的函数
##数学函数
abs(x)
sqrt(x)
log(16,base=2)
#默认以e为底
log(16)
log10(10)
exp(x)
##向上取整
ceiling(c(-2.3,3.1415))
##向下取整
floor(c(-2.3,3.1415))
##返回整数部分
trunc(c(-2.3,3.1415))
##四舍五入
round(c(-2.3,3.1415))
round(c(-2.3,3.1415),digits=2)
##三角函数
sin(x)
cos(x)

##统计函数
sum(x)
max(x)
min(x)
##返回最大值和最小值
range(x)
mean(x)
##方差
var(x)
##标准差
sd(x)
##连乘
prod(x)
median(x)
quantile(x)
quantile(x,c(0.4,0.5,0.8))
##最大值的索引值
which.max(x)
which.min(x)

二、矩阵与数组

m<-matrix(1:20,4,5)
##按行排列
m<-matrix(1:20,4,byrow=T)
##按列排列
m<-matrix(1:20,4,byrow=F)
##rnames是行名，cnames是列名
dimnames(m)<-list(rnames,cnames)
dim(x)<-c(4,5)
dim1<-c("A1","A2")
dim2<-c("B1","B2","B3")
dim3<-c("C1","C2","C3","C4")
x<-array(1:24,c(2,3,4),dimnames=list(dim1,dim2,dim3))
state.x77[,"Income"]
state.x77["Alabama",]

##数学运算
rowSums(m)
colSums(m)
colMeans(m)
rowMeans(m)
n<-matrix(1:9,3,3)
t<-matrix(2:10,3,3)
##矩阵内积
n*t
##矩阵外积
n %*% t
#返回对角元素
diag(n)

三、列表

state.center
##创建
a<-1:20
b<-matrix(1:20,4)
c<-mtcars
d<-"this test"
mlist <-list(first=a,second=b,third=c,forth=d)
##访问元素
mlist[c[1,4]]
##返回的仍是列表
mlist$first
state.center$x
##返回的是本身的数据类型
mlist[[1]]

四、数据框

data.frame
##取一列
state$Murder
##画散点图
plot(women$height,women$weight)
##线性回归
lm(formula=weight~height,data=women)
##快速的help方法
?attach
##attch加载数据框到搜索目录中,直接敲列名，而不需要使用$
attach(mtcars)
mpg
detach(mtcars)

五、因子

table(mtcars$cyl)
table(mtcars$am)
##定义因子
f<-factor(c("red","red","green","green","blue"))

##散点图
plot(mtcars$cyl)

在这里插入图片描述

plot(factor(mtcars$cyl))

在这里插入图片描述

六、时间序列

airmiles

在这里插入图片描述

sys.Date()
class(sys.Date())
a<-"2022-04-07"
as.Date(a,format="%Y-%m-%d")
?strftime
seq(as.Date("2020-01-01"),as.Date("2021-01-01"),by=1)
?ts
sales<-round(runif(48,min=50,max=100))
ts(sales,start=c(2010,5),end=c(2014,4),frequency=1)