R语言与数据可视化导论

最新推荐文章于 2024-10-07 00:05:15 发布

Christal09

最新推荐文章于 2024-10-07 00:05:15 发布

阅读量187

点赞数

分类专栏： R语言文章标签： r语言

本文链接：https://blog.csdn.net/Christal09/article/details/126778367

版权

R语言专栏收录该内容

2 篇文章 0 订阅

订阅专栏

R语言与数据可视化导论

包的安装和加载

#安装包
install.packages("ggplot2", repos = "http://cran.us.r-project.org")
install.packages(c("ggplot2", "openxlsx"))
#加载包
library(ggplot2) #或者
require(ggplot2)
#卸载包
remove.packages("ggplot2")

帮助文档

help(mean)
? mean

赋值

x <- 5
x #打印输出
print(x) #打印输出
x+2 #计算
class(x)
length(x)

基本运算

1 + 2
5 - 3
3 * 4
12 / 3
2 ^ 3
(2 + 4) / 3

数据类型

a <- c(2, 5, 8, 3, 9)
is.numeric(a) #判定a是否为数值型
b <- "Ningbo"
nchar(b) #输出字符串b的长度
c <- c(TRUE, FALSE) #逻辑型

d <- Sys.Date() #日期型
class(d)
Sys.time()
d <- as.Date('20220813', '%Y%m%d') #将字符型数据处理成日期型数据
as.integer(strftime(d, '%Y')) #提取年份信息
as.integer(strftime(d, '%m')) #提取月份信息

数据结构

向量

向量的创建

# 法一 c()函数
a <- c(2, 5, 8, 3, 6, -2)
a
b <- 1:10
b

# 法二 seq()函数
b <- seq(from = 1, to = 10) #seq序列，生成1至10的序列
b
b <- seq(from = 1, to = 10, by = 2) #seq序列，生成1至10的序列，包含1，10，步阶为2
b
c <- seq(1, 20, length.out = 4) #通过length.out控制元素的个数
c

# 法三 rep函数
d <- rep(6, 5) #重复5个6
d
d <- rep(c(1, 3), 8) #rep重复，重复c(1,3),共重复8次
d
rep(1:2, times = 3) #将一个向量重复3次
rep(1:2, each = 3) #将一个向量中的每个元素重复3次

#法四：rnorm和runif
rnorm(3,mean = 0,sd=1) #均值为0、标准差为1的正态分布
runif(3,min = 0,max = 1) #最大值为1、最小值为0的均匀分布
sample(c("A","B","C"),4,replace = TRUE) #从一个向量中随机抽取

向量的基本计算

a <- c(2, 5, 8, 3, 6, -2)
a+2
# 向量的基本统计函数
mean(a) #计算a的均值
max(a) #计算a的最大值
min(a) #计算a的最小值
length(a) #计算a的长度

向量的排序

a <- c(2, 5, 8, 3, 6, -2)
b <- sort(a) #升序
b
c <- sort(a,decreasing = TRUE) #降序
c

向量的唯一值

b <- c("A","p","p","l","e")
b
unique(b)

连续向量的离散化

Num_Vector <- c(10, 5, 4, 7, 6, 1, 4, 8, 8, 9)
Cut_Vector <-
  cut(
    Num_Vector,
    breaks = c(0, 5, 10),
    labels = c("0~5", "5~10"),
    right = TRUE
  )
Cut_Vector # 输出结果为因子向量,breaks=c(0,5,10)等价于breaks=2,将向量均分为2段
table(Cut_Vector) #统计各个水平的数据数量