《R语言实战》第五章学习笔记

拿笔的小鑫

于 2016-09-24 00:19:51 发布

阅读量1.9k

点赞数 2

分类专栏： R语言学习文章标签： r语言 r语言实战 r语言学习 r语言入门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34773726/article/details/52645270

版权

　　感谢Robert I.Kabacoff 著作本书，同时感谢高涛、肖楠、陈钢编译此书。

　　最近在学习《R语言实战》，特将学习过程记录下来，供各位朋友参考，虽说是笔记，但是90%是书中内容，另外10%是自己偶尔冒出的一点点想法的记录和一些疑问，希望互相探讨。末尾有本章的代码清单下载地址，与各位交流，还是提倡按照书中内容把代码一个个敲出来。

第五章　　高级数据管理

本章内容

数学和统计函数

字符处理函数

循环和条件执行

自编函数

数据整合与重塑

5.1　　一个数据处理难题

　　一个难题：

三科成绩是无法比较的。

需要一种方法来确定某个学生在前述得分上百分比排名。

表示姓名的字段只有一个，需要将姓和名拆开。

5.2　　数值和字符处理函数

　　本节将学习R中作为数据处理基石的函数，它们可分为数值（数学、统计、概率）函数和字符处理函数。

5.2.１　　数学函数

　　书中表5-2列出了常用的数学函数和简短的用例。（P83页）

　　值得一提的是round(x, digits = n) 表示将x舍入为指定位的小数。

　　signif(x, digits = n)表示将x舍入为指定的有效数字位数。

对比如下

round(3.475, digits = 2)返回值为3.48。（保留两位小数）
signif(3.475, n= = 2)返回值为3.5。（保留两位有效数字）

　　表5-2中的示例将数学函数应用到了标量（单独的数值）上。当这些函数被应用于数值向量、矩阵或者数据框时，它们会作用于其中每一个独立的值，然后重新生成一个向量、矩阵或数据框。

5.2.2　　统计函数

　　方差：表示点的离散程度。方差越小，离散程度越低，越接近平均值。公式表达为：
S=[ (x1-x)^2+(x2-x)^2+(x3-x)^2+……+(xn-x)^2]

　　标准差是方差开根号。

　　什么是绝对中位差、分位数、值域、滞后差分、进化中心化、标准化？

代码清单5-1　　均值和标准差的计算

x <- c(1, 2, 3, 4, 5, 6, 7, 8)

简洁的方式

mean(x)

sd(x)

冗长的方式

n <- length(x)

meanx <- sum(x)/n

css <- sum((x - meanx)^2)

sdx <- sqrt(css / (n-1))

meanx

sdx

　　第二种方式中修正平方和（css）的计算过程是很有启发性的：

（1） x等于c(1, 2, 3, 4, 5, 6, 7, 8),x的平均值等于4.5（length(x)返回了x中元素的数量）：

（2） (x - meanx)从x中的每个元素中减去了4.5，结果为c(-3.5, -2.5, -1.5, -0.5, 0.5, 1.5, 2.5, 3.5)

（3） (x - meanx)^2将(x - meanx)的每个元素求平方，结果为c(12.25, 6.25, 2.25, 0.25, 0.25, 2.25, 6.25, 12.25)

（4） summ((x - meanx)^2)对（(x - meanx)^2)的所有元素求和，结果为42。

数据的标准化

　　将一组数据，投射到很小区间内的方法，便于分析。标准化之后的数据有这样的特征：均值为0,标准差为1。

　　函数scale()对矩阵或数据框的制定了进行均值为0，标准差为1的标准化。

newdata <- scale(mydata

　　要对每一列进行任意均值和标准差的标准化，可以使用如下代码：

newdata <- scale(mydata) * SD + M

　　其中SD表示想要的标准差，M表示想要的均值。注意，在非数值型的列上用scale()函数会报错。如果要对指定列而不是整个数据框或矩阵进行标准化，可以使用如下代码：

newdata <- transform(mydata, myvar = scale(myvar) * 10 + 50)

　　此句将变量myvar标准化为均值50、标准差为10的变量。

问：是否

最低0.47元/天解锁文章

拿笔的小鑫

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
《R语言实战》第五章学习笔记

感谢Robert I.Kabacoff 著作本书，同时感谢高涛、肖楠、陈钢编译此书。　　最近在学习《R语言实战》，特将学习过程记录下来，供各位朋友参考，虽说是笔记，但是90%是书中内容，另外10%是自己偶尔冒出的一点点想法的记录和一些疑问，希望互相探讨。末尾有本章的代码清单下载地址，与各位交流，还是提倡按照书中内容把代码一个个敲出来。第五章　　高级数据管理本章内容数学和统计函数字
复制链接

扫一扫

专栏目录

拿笔的小鑫 CSDN认证博客专家 CSDN认证企业博客

码龄8年

13: 原创

31万+: 周排名

75万+: 总排名

9万+: 访问

: 等级

708: 积分

64: 粉丝

66: 获赞

15: 评论

139: 收藏

私信

关注

热门文章

分类专栏

最新评论

wampserver显示红色、橙色的解决方案
在云海飞: 我的wamp变黄了，服务自带的mysql我没设密码。但是我的文件设置中，我设置了自己装的mysql密码，结果连接的是我自己装的mysql。。。。
wampserver显示红色、橙色的解决方案
True_aFalse: 你好，我在任务管理器看的显示的是wamp目录的mysql，也是访问不了wordpress
wampserver显示红色、橙色的解决方案
xiaolinlin-lin: 你好，我遇到的问题是管理员用户可以开启，但是一旦切换成我自己的普通用户就起不来了，请问你了解这种情况要怎么处理吗？
《R语言实战》第五章学习笔记
weixin_55281606: z <- scale(roster[ , 2:4])这个显示x必需为数值咋整
wampserver显示红色、橙色的解决方案
Sun昵称被占用: 感谢！很详细也很有逻辑

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。