R语言与统计分析---汤银才

关于R中的函数或关键字符
  • 命令
> help(fun) 或 ?fun  

会立即显示名为“fun”函数的帮助页

> apropos(fun) 或 apropos("fun")  

找出所有在名字中含有指定字符串“fun”的函数,但只会在被载入
内存中的程序包中进行搜索.

> help.search("char")  

列出所有在帮助页面含有字符“char”的函数, 它的搜索范围
比apropos(“fun”)更广

> find(fun) 或 find("fun")  

得到名为“fun”函数所在的程序包

> args(fun) 或 args("fun")  

得到名为“fun”函数的自变量列表.

数据的浏览与编辑
  1. 数据的浏览
> mtcars  

显示mtcars中的32个观测值

> head(mtcars)  

显示数据集中前7行

> ==names==(mtcars)  

仅显示数据集中的变量,此处未是一个,也就是data.frame中的列名(INDEX )

  1. 数据的编辑
> ==data.entry==(mtcars)  

通过R的数据编辑器打开数据集mtcars, 除了浏览数据集外,这里
我们还可以对变量及其观测值进行修改.

> MTcars <- edit(mtcars)  

同样启动R的数据编辑器, 在此可对原来的数据集mtcars进行编辑,
完成后将生成的新的数据集赋给MTcars, 而原来的数据集保持不变.
如果你要修改原来的数据集,使命令edit( )前后的数据集同名即
可. 因此命令edit(mtcars) 将无法完成对数据的修改.

> xnew <- edit(data.frame( ))  

可以编辑生成新的数据集xnew. 另外, 对于一维的数据, edit( )打
开的是R Editor. 试比较下面的例子中两个命令的区别

> fix(mtcars) **等价于** > mtcars <- edit(mtcars)  

可以完成数据集mtcars的直接修改. 因此它等价于命令

  • 注意:
    • 命令data.entry( )和edit( )都可用于编辑向量、矩阵、数据
      框和列表,前者启用的都是R的数据编辑器, 后者有所不同: 对于向量、
      列表和数组edit( )启用的是R Editor.
    • 尽管我们在R中可以浏览与编辑数据集mtcars, 但它们还无法对此数据
      集进行操作(分析), 例如命令
>  attach(mtcars)  

无法看到变量mpg(每加仑公里数)的具体数值. 这时我们需要激活或挂
接(attach)数据集mtcars. 命令

> attach(mtcars)  
数据的属性分析
  • 变量cyl(汽缸数)为属性变量, 命令
> table(cyl)  

告诉我们变量cyl取3个值:4,6,8,相应的频数为11, 7, 14. 而命令

> barplot(table(cyl))  

> barplot

显示了cyl的频数直方图. 要注意的是, 命令

> barplot(cyl)  

> barplot

在此不适用, 它仅适用于数值型变量.

数值型数据的分析

统计分析中主要涉及数值型数据. 对此我们可考查它们的图形特征及常用
的特征量.

  • 画茎叶图(stem-and-leaf plot), 命令为
> stem(mpg)
  10 | 44
  12 | 3
  14 | 3702258
  16 | 438
  18 | 17227
  20 | 00445
  22 | 88
  24 | 4
  26 | 03
  28 | 
  30 | 44
  32 | 49
  • 画直方图, 命令为
 > hist(mpg)

> hist

  • 画框须图(stem-and-leaf plot), 命令为
> boxplot(mpg)

> boxplot

  • 计算平均值, 命令为
>mean(mpg)
  • 计算截去10%的平均值, 命令为
> mean(mpg, trim = .1)
  • 按分组变量cyl计算mpg的分组平均值, 命令为
> tapply(mpg,cyl,mean)
4        6        8 
26.66364 19.74286 15.10000 
  • 计算cyl为4的那些mpg的平均值, 命令为
    > mean(mpg[cyl == 4])
  • 计算四分位数的极差(interquartile range), 命令为
> IQR(mpg)
  • 计算样本常用的分位数: 极小、极大、中位数及两个四分位数, 命令为
> quantile(mpg)
或者
> fivenum(mpg)
  • 计算由向量prob给定的各概率处的样本分位数, 命令为
> quantile(mpg, probs)

例如probs = c(0.1, 0.5, 99.5)/100. 可见, quantile( )比fivenum( )更
为一般.

  • 计算常用的描述性统计量, 它们分别是最小值(Min.)、第一四分位数(1st
    Qu.)、中位数(Median)、平均值(Mean)、第三分位数(3rd Qu.)和最大
    值(Max.), 命令为
> summary(mpg)
Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
10.40   15.43   19.20   20.09   22.80   33.90 
  • 计算标准差, 命令为
> sd(mpg)
  • 计算中位绝对离差(median absolute deviation), 命令为
> mad(mpg)
寻找二元关系
  • 画二维散点图, 例如cyl与mpg的散点图, 可通过下面的命令得到.
> plot(cyl,mpg)

cyl,mpg

注意: 相仿命令

> plot(hp,mpg)

hp,mpg

可得到hp与mpg的散点图. 但32个点对应了不同的汽缸, 因此按**cyl为图
例(不同cyl用不用符号区分)**作出散点图更清晰, 命令为

> plot(hp,mpg,pch=cyl)
#> legend(250,30,pch=c(4,6,8),
#> legend=c("4 cylinders","6 cylinders","8 cylinders"))
> legend(250,30,pch=c(4,6,8),
legend=c("4 cylinders","6 cylinders","8 cylinders"))

图例函数legend中的legend参数是必填,是标注每个图例的名称的

  • 1
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值