R语言与数据可视化导论
包的安装和加载
#安装包
install.packages("ggplot2", repos = "http://cran.us.r-project.org")
install.packages(c("ggplot2", "openxlsx"))
#加载包
library(ggplot2) #或者
require(ggplot2)
#卸载包
remove.packages("ggplot2")
帮助文档
help(mean)
? mean
赋值
x <- 5
x #打印输出
print(x) #打印输出
x+2 #计算
class(x)
length(x)
基本运算
1 + 2
5 - 3
3 * 4
12 / 3
2 ^ 3
(2 + 4) / 3
数据类型
a <- c(2, 5, 8, 3, 9)
is.numeric(a) #判定a是否为数值型
b <- "Ningbo"
nchar(b) #输出字符串b的长度
c <- c(TRUE, FALSE) #逻辑型
d <- Sys.Date() #日期型
class(d)
Sys.time()
d <- as.Date('20220813', '%Y%m%d') #将字符型数据处理成日期型数据
as.integer(strftime(d, '%Y')) #提取年份信息
as.integer(strftime(d, '%m')) #提取月份信息
数据结构
向量
向量的创建
# 法一 c()函数
a <- c(2, 5, 8, 3, 6, -2)
a
b <- 1:10
b
# 法二 seq()函数
b <- seq(from = 1, to = 10) #seq序列,生成1至10的序列
b
b <- seq(from = 1, to = 10, by = 2) #seq序列,生成1至10的序列,包含1,10,步阶为2
b
c <- seq(1, 20, length.out = 4) #通过length.out控制元素的个数
c
# 法三 rep函数
d <- rep(6, 5) #重复5个6
d
d <- rep(c(1, 3), 8) #rep重复,重复c(1,3),共重复8次
d
rep(1:2, times = 3) #将一个向量重复3次
rep(1:2, each = 3) #将一个向量中的每个元素重复3次
#法四:rnorm和runif
rnorm(3,mean = 0,sd=1) #均值为0、标准差为1的正态分布
runif(3,min = 0,max = 1) #最大值为1、最小值为0的均匀分布
sample(c("A","B","C"),4,replace = TRUE) #从一个向量中随机抽取
向量的基本计算
a <- c(2, 5, 8, 3, 6, -2)
a+2
# 向量的基本统计函数
mean(a) #计算a的均值
max(a) #计算a的最大值
min(a) #计算a的最小值
length(a) #计算a的长度
向量的排序
a <- c(2, 5, 8, 3, 6, -2)
b <- sort(a) #升序
b
c <- sort(a,decreasing = TRUE) #降序
c
向量的唯一值
b <- c("A","p","p","l","e")
b
unique(b)
连续向量的离散化
Num_Vector <- c(10, 5, 4, 7, 6, 1, 4, 8, 8, 9)
Cut_Vector <-
cut(
Num_Vector,
breaks = c(0, 5, 10),
labels = c("0~5", "5~10"),
right = TRUE
)
Cut_Vector # 输出结果为因子向量,breaks=c(0,5,10)等价于breaks=2,将向量均分为2段
table(Cut_Vector) #统计各个水平的数据数量