本博客所有内容是原创,未经书面许可,严禁任何形式的转载。
http://blog.csdn.net/u010255642
有序因子
> ordered(nums)
[1] 11 22 34 71 14 68 21 22 11 34
Levels: 11 < 14 < 21 < 22 < 34 < 68 < 71
>
3、函数tapply进行分类(组)统计
对每个分组应用函数
> fruit_class<-c("苹果","梨子","桔子","草梅","苹果","桔子","桔子","草梅","桔子","草梅")
> fruit_prices<-c(3.5,2.5,1.5,5.5,4.2,3.2,2.8,4.8,2.9,5.8)
求平均价格
> tapply(fruit_prices,fruit_class,mean)
草梅 桔子 梨子 苹果
5.366667 2.600000 2.500000 3.850000
ax)
求最低价格
> tapply(fruit_prices,fruit_class,min)
草梅 桔子 梨子 苹果
4.8 1.5 2.5 3.5
>
求最高价格
ax)
草梅 桔子 梨子 苹果
5.8 3.2 2.5 4.2
>
求方差
ar)
草梅 桔子 梨子 苹果
0.2633333 0.5666667 NA 0.2450000
求标准差
> tapply(fruit_prices,fruit_class,sd)
草梅 桔子 梨子 苹果
0.5131601 0.7527727 NA 0.4949747
>
求标准识,标准误即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本均数之间的变异。标准误不是标准差,是样本均值的标准差,用来衡量抽样误差。
标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大,即使从同一总体用同样方法随机抽取例数相同的一些样本,各样本算得的某种指标,也参差不齐存在一定的差异,样本指标与相应的总体指标之间有或多或少的相差,这种差异,即由于抽样而带来的样本与总体间的误差,叫抽样误差。
S为样本标准差
> stderr <- function(x) sqrt(var(x)/length(x))
> tapply(fruit_prices,fruit_class,stderr)
草梅 桔子 梨子 苹果
0.2962731 0.3763863 NA 0.3500000
>
3、数组与矩阵
R提供了简单的工具处理数组以及矩阵。
1)数组
维数向量是元素都非负的向量,指示数组或矩阵的维数
矩阵的维数是2维
> dim(my_num)<-c(2,5)
> my_num
[,1] [,2] [,3] [,4] [,5]
[1,] 11 34 14 21 11
[2,] 22 71 68 22 34
数组的维数是1维
> dim(my_num)<-c(10)
> my_num
[1] 11 22 34 71 14 68 21 22 11 34