R语言实战分析预测海藻数量

本文介绍了使用R语言对海藻数量进行预测的实战过程,包括数据加载、数据预处理、离群值检测、缺失值填充、预测模型构建(如线性回归、决策树、随机森林)以及模型评估。通过各种统计图形和方法,如直方图、QQ图、箱线图等,对数据进行深入分析,选择最佳模型进行预测。
摘要由CSDN通过智能技术生成

********************预测海藻数量R语言脚本************************

---加载数据包

library(DMwR)

head(algae)

 

 

---对于数据给出行名称

algae=read.table("Analysis.txt",

header=F,

dec='.',

col.names=c('season','size','speed','mxPH','mno2','cl','no3','nh4','opo4','po4','chla','a1','a2','a3','a4','a5','a6','a7'),

na.strings=c('XXXXXXX'))

 

---绘制PH直方图

hist(algae$mxPH,prob=T)

 

 

---绘制PH直方图加密度图,用QQ图查看数据是否符合正态分布

library(car)

par(mfrow=c(1,2))

hist(algae$mxPH,prob=T,xlab='',main='Histogram of maximum ph value',ylim=0:1)

lines(density(algae$mxPH,na.rm=T))

rug(jitter(algae$mxPH))

qq.plot(algae$mxPH,main='Normal QQ Plot of maximum PH')

par(mfrow=c(1,1))

 

 

---绘制opo4箱线图

boxplot(algae$opo4,ylab="orthophosphate (opo4)")

rug(jitter(algae$opo4),side=2)

abline(h=mean(algae$opo4,na.rm=T),lty=2)

 

 

---离群值的检测,三条线分别表示均值,均值加标准差,中位数

plot(algae$nh4,xlab="")

abline(h=mean(algae$nh4,na.rm=T),lty=1)

abline(h=mean(algae$nh4,na.rm=T)+sd(algae$nh4,na.rm=T),lty=2)

abline(h=median(algae$nh4,na.rm=T),lty=3)

identify(algae$nh4)

 

---离群值的检测

plot(algae$nh4,xlab="")

clicked.lines=identify(algae$nh4)

 

algae[clicked.lines, ]

 

 

algae[algae$nh4.line>19000, ]

 

---因子变量绘制lattice箱线图(在规模较小的河流中,a1的频率较高)

library(lattice)

bwplot(size~a1,data=algae,ylab='Rive Size',xlab='Algal A1')

 

 

---分位箱线图

library(Hmisc)

bwplot(size~a1,data=algae,panel=panel.bpplot,

probs=seq(.01,.49,by=.01),datadensity=TRUE,

yalb='River Size',xlab='Algal A1'

)

 

 

---两个条件的影响绘图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值