library(learningr)
data("obama_vs_mccain")
obama<-obama_vs_mccain$Obama
#统计函数
range(obama)
median(obama)
table(cut(obama,seq.int(0,100,10)))
mad(obama)
cumsum(1:10)#累积和
cumprod(1:10)#阶乘
quantile(obama)#分位数
quantile(obama,type=5)
quantile(obama,c(0.9,0.95,0.99))
IQR(obama)
fivenum(obama)
summary(obama)
summary(obama_vs_mccain)
with(obama_vs_mccain,cor(Obama,McCain))#相关系数
数据可视化
https://r4ds.had.co.nz/exploratory-data-analysis.html
1.判断变量类型
2.如果是分类变量就用条形图,饼图
3.美化
# 可视化
require(grDevices)
tN<-table(Ni<-stats::rpois(100,lambda=5))
r<-barplot(tN,col=rainbow(20))#条形图用于分类变量
line(r,tN,type='h',col='red',lwd=2)
barplot(tN,space=1.5,axisnames=FALSE,sub="barplot(...,space=1.5,axisnames=FALSE)")
require(grDevices)
tN<-table(Ni<-stats::rpois(100,lambda=5))
pie(tN,col=rainbow(20))
op<-par(mfrow=c(2,2))
hist(islands)
utils::str(hist(islands,col='gray',lables=TRUE))
boxplot(count ~spray, data=InsectSprays,col='lightgray')#箱线图
ggplot更加智能,能够自动的分组,且美化。https://r4ds.had.co.nz/exploratory-data-analysis.html
library(tidyverse)
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut))