数学之路(2)-数据分析-R基础(12)

麦好

于 2013-04-24 17:02:10 发布

阅读量1.7k

点赞数 1

分类专栏：软件与计算机器学习实践指南文章标签：数据分析 R 人工智能数学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/myhaspl/article/details/8845368

版权

软件与计算同时被 2 个专栏收录

311 篇文章 1 订阅

订阅专栏

机器学习实践指南

217 篇文章 79 订阅

订阅专栏

本博客所有内容是原创，未经书面许可，严禁任何形式的转载。

http://blog.csdn.net/u010255642

有序因子

> ordered(nums)

[1] 11 22 34 71 14 68 21 22 11 34

Levels: 11 < 14 < 21 < 22 < 34 < 68 < 71

>

3、函数tapply进行分类（组）统计

对每个分组应用函数

> fruit_class<-c("苹果","梨子","桔子","草梅","苹果","桔子","桔子","草梅","桔子","草梅")

> fruit_prices<-c(3.5,2.5,1.5,5.5,4.2,3.2,2.8,4.8,2.9,5.8)

求平均价格

> tapply(fruit_prices,fruit_class,mean)

草梅桔子梨子苹果

5.366667 2.600000 2.500000 3.850000

ax)

求最低价格

> tapply(fruit_prices,fruit_class,min)

草梅桔子梨子苹果

4.8 1.5 2.5 3.5

>

求最高价格

ax)

草梅桔子梨子苹果

5.8 3.2 2.5 4.2

>

求方差

ar)

草梅桔子梨子苹果

0.2633333 0.5666667 NA 0.2450000

求标准差

> tapply(fruit_prices,fruit_class,sd)

草梅桔子梨子苹果

0.5131601 0.7527727 NA 0.4949747

>

求标准识，标准误即样本均数的标准差，是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度，反映的是样本均数之间的变异。标准误不是标准差，是样本均值的标准差，用来衡量抽样误差。

标准误越小，表明样本统计量与总体参数的值越接近，样本对总体越有代表性，用样本统计量推断总体参数的可靠度越大，即使从同一总体用同样方法随机抽取例数相同的一些样本，各样本算得的某种指标，也参差不齐存在一定的差异，样本指标与相应的总体指标之间有或多或少的相差，这种差异，即由于抽样而带来的样本与总体间的误差，叫抽样误差。

S为样本标准差

> stderr <- function(x) sqrt(var(x)/length(x))

> tapply(fruit_prices,fruit_class,stderr)

草梅桔子梨子苹果

0.2962731 0.3763863 NA 0.3500000

>

3、数组与矩阵

R提供了简单的工具处理数组以及矩阵。

1)数组

维数向量是元素都非负的向量，指示数组或矩阵的维数

矩阵的维数是2维

> dim(my_num)<-c(2,5)

> my_num

[,1] [,2] [,3] [,4] [,5]

[1,] 11 34 14 21 11

[2,] 22 71 68 22 34

数组的维数是1维

> dim(my_num)<-c(10)

> my_num

[1] 11 22 34 71 14 68 21 22 11 34

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。