R语言数据分析系列之四

9 篇文章 3 订阅
8 篇文章 0 订阅

R语言数据分析系列之四

说到统计分析我们就离不开随机变量,所谓随机变量就是数学家们为了更好的拟合现实世界的数据而建立的数学模型。有了她我们甚至可以来预测一个网站未来几天的日访问用户,股票的未来走势等等。那么本节我们来一起探讨以下常用的函数分布,以及流程控制语句。

常见分布有:正态分布(高斯分布),指数分布,beta分布,gamma分布等。

正态分布

若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数曲线,由正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。

 

par(mgp=c(0.6,0.6,0))
x <- seq(-5,5,length.out=100) 
y <- dnorm(x,0,1) 
plot(x,y,xlim=c(-4,4),col='red',ylim=c(0,0.8),type='l',ylab='density',xlab='x',main="The Normal Density Distribution")
lines(x,dnorm(x,0,2),col="blue")
lines(x,dnorm(x,-2,1),col="orange")
lines(x,dnorm(x,0,0.5),col="green")


 

指数分布

许多电子产品的寿命分布一般服从指数分布。有的系统的寿命分布也可用指数分布来近似。它在可靠性研究中是最常用的一种分布形式。产品的失效是偶然失效时,其寿命服从指数分布。例如已知某原件已经使用了s小时,那么它能在使用t小时的条件概率,与从刚开始使用t小时的概率一样。这就是指数分布的无记忆性,它在可靠性研究中有着广泛的应用。

x<-seq(-1,2,length.out=100)
y<-dexp(x,0.5)
 
plot(x,y,col="red",xlim=c(0,2),ylim=c(0,5),type='l',
        xaxs="i", yaxs="i",ylab='density',xlab='x',
        main="The Exponential Density Distribution")
lines(x,dexp(x,1),col="green")
lines(x,dexp(x,2),col="blue")
lines(x,dexp(x,5),col="orange")



gamma 伽马分布

伽马函数:


伽玛函数是阶乘在实数上的泛化。

 

伽马分布的概率密度函数:

x<-seq(0,10,length.out=100)
y<-dgamma(x,1,2)


plot(x,y,col="red",xlim=c(0,10),ylim=c(0,2),type='l',
     xaxs="i", yaxs="i",ylab='density',xlab='',
     main="The Gamma Density Distribution")


lines(x,dgamma(x,2,2),col="green")
lines(x,dgamma(x,3,2),col="blue")
lines(x,dgamma(x,5,1),col="orange")
lines(x,dgamma(x,9,1),col="black")


 

beta 贝塔分布

Beta分布的一个重要应该是作为伯努利分布和二项式分布的共轭先验分布出现,在机器学习和数理统计学中有重要应用。

该分布有两个参数,αβ (α,β>0).

 

x<-seq(-5,5,length.out=10000)
y<-dbeta(x,0.5,0.5)
 
plot(x,y,col="red",xlim=c(0,1),ylim=c(0,6),type='l',
    xaxs="i", yaxs="i",ylab='density',xlab='',
    main="The Beta Density Distribution")
 
lines(x,dbeta(x,5,1),col="green")
lines(x,dbeta(x,1,3),col="blue")
lines(x,dbeta(x,2,2),col="orange")
lines(x,dbeta(x,2,5),col="black")
legend("top",legend=paste("a=",c(.5,5,1,2,2),"b=",c(.5,1,3,2,5)),lwd=1,col=c("red","green","blue","orange","black"))


 

流程控制语句

分支语句

if else:

a < 5
if(a>10){
print('a>10')
} else if(a<10){
print('a<10')
} else{
print('a=10')
}


switch 分支语句:

case <- 4

switch(case,’低异常点’,’偏低’,’正常’,’偏高’,’高异常点’)

偏高

for 循环:

web.pv <- c(sample(100:5000,30))
web.day <-seq(as.Date('2015-01-01'),by=1,length=30)
web.data <- data.frame(web.day,web.pv)
for(item inweb.data$web.pv){print(paste(web.data$web.day[which(web.data$web.pv ==item)],'',item))}


 

while 循环:

while(i <length(web.pv)){print(web.pv[i]) ;i = i + 1} ;i=0

 

 

函数

定义一个函数表达式: y=a*x + b,然后我们还画出函数轨迹图:

demo.fun1 <- function(x,a,b) {
 return(a * x + b)
}
 
a=3
b=7
y <- demo.fun1(x,a,b)
df <- data.frame(x,y)
 
g<-ggplot(df,aes(x,y)) 
g <- g + geom_line(col='red') # 一次方程曲线
g <- g + geom_hline(yintercept=0) +geom_vline(yintercept=0) #设置坐标轴
g <- g + ggtitle(paste('y=',a,' * x+',b)) # 添加标题
g


 

定义一个多次方程函数:

demo.fun3 <- function(x,a,b,c,d){
 return(a * x^3 + b * x^2 + c * x +d)
}
 
a=1
b=5
c=6
d=-10
x <- seq(-5,5,by=0.01)
y <- demo.fun3(x,a,b,c,d)
df <- data.frame(x,y)
g <- ggplot(df,aes(x,y))
g <- g + geom_line(col='green') #三次曲线
g <- g + geom_hline(yintercept=0) + geom_vline(yintercept=0) #设置坐标轴
g <- g + ggtitle(paste('y=',a,' *x^3 +',b,'*x^2 +',c,'* x +',d)) # 添加标题
g


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值