关于R中的函数或关键字符
- 命令
> help(fun) 或 ?fun
会立即显示名为“fun”函数的帮助页
> apropos(fun) 或 apropos("fun")
找出所有在名字中含有指定字符串“fun”的函数,但只会在被载入
内存中的程序包中进行搜索.
> help.search("char")
列出所有在帮助页面含有字符“char”的函数, 它的搜索范围
比apropos(“fun”)更广
> find(fun) 或 find("fun")
得到名为“fun”函数所在的程序包
> args(fun) 或 args("fun")
得到名为“fun”函数的自变量列表.
数据的浏览与编辑
- 数据的浏览
> mtcars
显示mtcars中的32个观测值
> head(mtcars)
显示数据集中前7行
> ==names==(mtcars)
仅显示数据集中的变量,此处未是一个,也就是data.frame中的列名(INDEX )
- 数据的编辑
> ==data.entry==(mtcars)
通过R的数据编辑器打开数据集mtcars, 除了浏览数据集外,这里
我们还可以对变量及其观测值进行修改.
> MTcars <- edit(mtcars)
同样启动R的数据编辑器, 在此可对原来的数据集mtcars进行编辑,
完成后将生成的新的数据集赋给MTcars, 而原来的数据集保持不变.
如果你要修改原来的数据集,使命令edit( )前后的数据集同名即
可. 因此命令edit(mtcars) 将无法完成对数据的修改.
> xnew <- edit(data.frame( ))
可以编辑生成新的数据集xnew. 另外, 对于一维的数据, edit( )打
开的是R Editor. 试比较下面的例子中两个命令的区别
> fix(mtcars) **等价于** > mtcars <- edit(mtcars)
可以完成数据集mtcars的直接修改. 因此它等价于命令
- 注意:
- 命令data.entry( )和edit( )都可用于编辑向量、矩阵、数据
框和列表,前者启用的都是R的数据编辑器, 后者有所不同: 对于向量、
列表和数组edit( )启用的是R Editor. - 尽管我们在R中可以浏览与编辑数据集mtcars, 但它们还无法对此数据
集进行操作(分析), 例如命令
- 命令data.entry( )和edit( )都可用于编辑向量、矩阵、数据
> attach(mtcars)
无法看到变量mpg(每加仑公里数)的具体数值. 这时我们需要激活或挂
接(attach)数据集mtcars. 命令
> attach(mtcars)
数据的属性分析
- 变量cyl(汽缸数)为属性变量, 命令
> table(cyl)
告诉我们变量cyl取3个值:4,6,8,相应的频数为11, 7, 14. 而命令
> barplot(table(cyl))
显示了cyl的频数直方图. 要注意的是, 命令
> barplot(cyl)
在此不适用, 它仅适用于数值型变量.
数值型数据的分析
统计分析中主要涉及数值型数据. 对此我们可考查它们的图形特征及常用
的特征量.
- 画茎叶图(stem-and-leaf plot), 命令为
> stem(mpg)
10 | 44
12 | 3
14 | 3702258
16 | 438
18 | 17227
20 | 00445
22 | 88
24 | 4
26 | 03
28 |
30 | 44
32 | 49
- 画直方图, 命令为
> hist(mpg)
- 画框须图(stem-and-leaf plot), 命令为
> boxplot(mpg)
- 计算平均值, 命令为
>mean(mpg)
- 计算截去10%的平均值, 命令为
> mean(mpg, trim = .1)
- 按分组变量cyl计算mpg的分组平均值, 命令为
> tapply(mpg,cyl,mean)
4 6 8
26.66364 19.74286 15.10000
- 计算cyl为4的那些mpg的平均值, 命令为
> mean(mpg[cyl == 4]) - 计算四分位数的极差(interquartile range), 命令为
> IQR(mpg)
- 计算样本常用的分位数: 极小、极大、中位数及两个四分位数, 命令为
> quantile(mpg)
或者
> fivenum(mpg)
- 计算由向量prob给定的各概率处的样本分位数, 命令为
> quantile(mpg, probs)
例如probs = c(0.1, 0.5, 99.5)/100. 可见, quantile( )比fivenum( )更
为一般.
- 计算常用的描述性统计量, 它们分别是最小值(Min.)、第一四分位数(1st
Qu.)、中位数(Median)、平均值(Mean)、第三分位数(3rd Qu.)和最大
值(Max.), 命令为
> summary(mpg)
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.40 15.43 19.20 20.09 22.80 33.90
- 计算标准差, 命令为
> sd(mpg)
- 计算中位绝对离差(median absolute deviation), 命令为
> mad(mpg)
寻找二元关系
- 画二维散点图, 例如cyl与mpg的散点图, 可通过下面的命令得到.
> plot(cyl,mpg)
注意: 相仿命令
> plot(hp,mpg)
可得到hp与mpg的散点图. 但32个点对应了不同的汽缸, 因此按**cyl为图
例(不同cyl用不用符号区分)**作出散点图更清晰, 命令为
> plot(hp,mpg,pch=cyl)
#> legend(250,30,pch=c(4,6,8),
#> legend=c("4 cylinders","6 cylinders","8 cylinders"))
> legend(250,30,pch=c(4,6,8),
legend=c("4 cylinders","6 cylinders","8 cylinders"))
图例函数legend中的legend参数是必填,是标注每个图例的名称的