read.csv()
2. 查看数据
head(), tail()
3. package install/usage
从菜单安装, 用library()加载
4. 转换成factor
as.factor()
5. 查看是否是factor
is.factor()
6. 关于脚本
R的脚本就是一串R命令,它的执行将覆盖当前工作区内的同名变量,当然你可以在脚本中声明一个函数
在R_GUI中利用source("x.R")来加载x.R,x.R中的内容在此时就已经执行了
7. 函数的返回值
R中存在return(), 不过这是一个函数
8. 查看当前工作环境中的变量
ls()
9. 删除工作环境中的变量
rm(x)
清除所有变量 rm(list=ls())
10. 获得矩阵尺寸
nrow(), ncol()
11. 避免随机值
seed.seed(N)
12. Error: New factor levels not present in the training data
利用random forest时遇到这个问题, 训练集和测试集是没有交集的, 训练正常, 在测试时遇到上述错误,在网上搜索了一下似乎是因为test set中有些factor量没有在train set中出现过,
所以导致这个问题, 比较可行的一个方法是:
不要对train set和test set分开进行as.factor(), 而要先把而这bind()成一个matrix, 然后对这个更大的matrix做as.factor(),做完后再拆分成不同的集合即可。
13. 内存
memory.size()查看已经分配的内存
memory.limit(NA)查看当前的内存限制
memory.limit(2048)把内存限制修改成2GB
PS:有时报内存不足时,可以删除不用的变量,然后保存工作目录, 重启R_GUI后重新加载工作目录
14. mode()可以查看变量的类型
15. list一般是通过属性名访问
16. ?unique 查看unique函数的帮助文档
??unique在帮助文档中搜索unique关键字
17. 字符串截取
substring()
18. 年月日转换成周一,周二。。
weekdays(as.Date(‘13/12/2014'))
19. 查找满足条件的项的index
which()
20.R gui修改语言设置
R gui会自动根据系统设置修改语言, 但还是可以修改的, 一个比较直接的方式是在其启动快捷方式命令后增加: anguage=English
至于为什么要修改成英文? 到不是baidu搜索力不够,只是巧妇难为无米之炊。。
21. 希望函数返回多个参数, 很希望C的struct功能? 不妨试试list
22. aggregate()
查看一些属性的统计信息
23. list的访问
x = list(A = a, B = b)
x$A: 显示属性A
x[A = a,] : 显示属性A = a的行
x[,'A']:显示名字为'A’的属性
24. R中公式的定义
R中的形式y ~ x1+x2+x3,表示y=f(x1,x2,x3), 其中x1可以是属性名(不用引号)
25. 冒号的优先级高于四则运算
x[a:c+d]和x[a:(c+d)]是不一样的
26. 随机数
runif() 和 rnorm()
24. 相关系数
cancor()
25. list转换成numeric
x = list()
y = as.double(as.matrix(x))
显示数字出现频率
table()
清理内存
rm()可以清除变量,但是对应的内存并没有还给系统,使用gc()调用R的内存回收机制,把这部分内存还给系统