3.1 题目如下
(1) 相关理解见注释,完整代码为:
> exer1<-read.csv("D:/作业/统计学R/《统计学—基于R》(第4版)—例题和习题数据(公开资源)/exercise/chap03/exercise3_1.csv")
> mean(exer1$网购金额) #平均数
[1] 1032.64
> sd(exer1$网购金额) #标准差
[1] 385.3728
> max(exer1$网购金额)-min(exer1$网购金额) #极差
[1] 1981
> IQR(exer1$网购金额,type=6) #四分位差
[1] 422.75
(2) 相关理解见注释,完整代码为:
> quantile(exer1$网购金额,probs=c(0.1,0.25,0.5,0.75,0.9),type=6)
10% 25% 50% 75% 90%
532.20 825.75 985.50 1248.50 1490.90
(3) 相关理解见注释,完整代码为:
> as.vector(round(scale(exer1$网购金额),4)) #标准分数
[1] -0.0743 -0.2897 -0.2715 0.2993 0.9948 -1.1175 -0.1106 0.2656 -0.4039
[10] 0.9014 1.3165 0.7171 -0.6322 3.2108 -1.3484 -1.3251 -1.3095 -0.0380
[19] -0.1963 1.0129 -0.4013 -0.5051 -0.3312 -0.4999 0.4966 -0.3027 1.1920
[28] -0.2534 -1.1849 -1.9297 0.3461 -0.2715 -0.2430 0.2007 0.5562 0.0762
[37] 0.6912 -0.7879 -1.2005 -0.9747 -1.7869 0.1930 1.9964 0.5718 2.0327
[46] 0.4343 -0.1340 -1.0059 0.2604 1.1634
> abs(as.vector(round(scale(exer1$网购金额),4)))>3 #离散点判断
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[13] FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[25] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[37] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[49] FALSE FALSE
其中离散点为平均数加减3倍标准差之外的点,即标准分数的绝对值大于3的情况。
若z=as.vector(round(scale(exer1$网购金额),4))
则还可以这样写 z[ z>3|z<3]
(4) 相关理解见注释,完整代码为:
> library(e1071)
> skewness(exer1$网购金额,type=3) #中等程度的右偏分布
[1] 0.6240347
> kurtosis(exer1$网购金额,type=3) #尖峰分布
[1] 0.8262566
对于偏度系数:
偏度系数大于1或小于-1为严重偏斜分布
偏度系数在0.5~1或-1~-0.5为中等偏斜分布
偏度系数小于0.5或大于-0.5为轻微偏斜分布
负值代表左偏分布,正值代表右偏分布
对于峰度系数:
K>0为尖峰分布,数据分布的峰值比标准正态分布高,数据相对集中
K<0为扁平分布,数据分布的峰值比标准正态分布低,数据相对分散
3.2 题目如下
(1)选择小提琴图:
> exer2<-read.csv("D:/作业/统计学R/《统计学—基于R》(第4版)—例题和习题数据(公开资源)/exercise/chap03/exercise3_2.csv")
> library(vioplot)
> par(mai=c(0.6,0.6,0.3,0.3),cex=0.7)
> palette<-RColorBrewer::brewer.pal(3,"Set2")
> names=c("方法A","方法B","方法C")
> vioplot(exer2[1:3],col=palette,names=names,main="小提琴图",xlab="组装方法",ylab="产品数量")
画出来的效果如图:
(2)计算描述统计如下:
> library(pastecs)
> round(stat.desc(exer2),4)
方法A 方法B 方法C
nbr.val 15.0000 15.0000 15.0000
nbr.null 0.0000 0.0000 0.0000
nbr.na 0.0000 0.0000 0.0000
min 162.0000 125.0000 116.0000
max 170.0000 132.0000 128.0000
range 8.0000 7.0000 12.0000
sum 2484.0000 1931.0000 1883.0000
median 165.0000 129.0000 126.0000
mean 165.6000 128.7333 125.5333
SE.mean 0.5503 0.4522 0.7163
CI.mean.0.95 1.1803 0.9698 1.5362
var 4.5429 3.0667 7.6952
std.dev 2.1314 1.7512 2.7740
coef.var 0.0129 0.0136 0.0221
小提琴图和描述统计量均显示,方法A的均值较高,离散程度也较小。方法B和方法C差距不大。
3.3 题目如下
(1)选择小提琴图:
> exer3<-read.csv("D:/作业/统计学R/《统计学—基于R》(第4版)—例题和习题数据(公开资源)/exercise/chap03/exercise3_3.csv")
> par(mai=c(0.6,0.6,0.3,0.3),cex=0.7)
> palette<-RColorBrewer::brewer.pal(3,"Set2")
> vioplot(exer3[1:2],col=palette,main="小提琴图",xlab="性别",ylab="身高")
画出来的效果如图:
(2)计算描述统计如下:
> library(pastecs)
> round(stat.desc(exer3),4)
男生 女生
nbr.val 50.0000 50.0000
nbr.null 0.0000 0.0000
nbr.na 0.0000 0.0000
min 166.5000 157.0000
max 196.0000 179.2000
range 29.5000 22.2000
sum 8928.0000 8392.8000
median 177.5000 167.7000
mean 178.5600 167.8560
SE.mean 0.9416 0.6981
CI.mean.0.95 1.8922 1.4029
var 44.3282 24.3670
std.dev 6.6579 4.9363
coef.var 0.0373 0.0294
小提琴图和描述统计量均显示,男生平均身高高于女生,离散程度也相对较大。
结束啦,做的还挺快的~~下次见。