创建数据集基础数据集--行:观测 ;列:变量数据类型:数值型、字符型、逻辑型(TRUE/FALSE)、复数型(虚数)、原生型(字节)
2. 数据结构:标量
向量: 函数c( )创建向量;[ ]给定元素所处位置的数值
矩: matrix( vector, nrow=, ncol=, byrow= TRUE按行填充)
数组: array( ) dim维数; aperm() 函数 广义转置
数据框: data.frame()
#选取数据框中的元素: $ ; attach( )、detach( ); with( )
例:with(mtcars, { #enter+shift 换行
nokeepstats
keepstats <
plot(mpg, wt)
})
#实例标识符
#因子 factor( )--有序 参数ordered= TRUE,levels = c( )
例:sex
变量:类别/名义型变量(无顺序)、有序型变量、连续型变量列表 list( ) #通过[[ ]]访问列表中的元素
3. 导入数据
read.table() / read.csv( ,header=TRUE,stringsAsFactors=FALSE)
read.xlsx() #需要library(xlsx)
4. 访问前n行 head()
5. 计算行列数 nrow/ncol() 、 计算维数 dim()
6. 去重 unique()
duplicated()
7. 数据类型转换: as.numeric / as.character /as.vector /as.matrix /as.data.frame /as.factor /as.logical
8. str() #查看数据类型,对象的结构
class() #查看数据结构类型,例如"data.frame"等
unclass() #直接检查对象的内容
attributes() #罗列对象属性
attr() #设置对象属性,dim属性等
ls() #列出变量?
environment()
9. setkey() #设置key , data.table()包 ?
10. 数字取整相关的操作函数:ceiling() #返回对应数字的'天花板'值,就是不小于该数字的最小整数;
floor() #返回'地板'值,即不大于该数字的最大值;
trunc() #向零截取;
round() #'四舍五入'函数;
signif() #保留有效数字,用于科学计数。
11. set.seed() #设定生成随机数的种子,种子是为了让结果具有重复性。
图形各基本图形:plot() #散点图,type="b" 点+线(折线图)/ c 不绘制点 / l 只有线/ o 实心点和线(线覆盖在点上),xaxt="n"控制x轴刻度的显示,n表示不显示
#残差图:plot(x, which=) which=1~4分别代表画普通残差与拟合值的残差图,画正态QQ的残差图,画标准化残差的开方与拟合值的残差图,画Cook统
qqnorm() / qqline() #QQ图
boxplot() #箱线图
hist() #直方图,参数freq=
barplot() #条形图,horiz=TRUE生成水平条形图,beside=FALSE--堆砌,TRUE--并列
spine() #棘状图,vcd包中
pie() #饼图
dotchart() # 点图
density() #核密度估计
ecdf() #经验分布函数
stem() #茎叶图
2. dev.new() / dev.next()/ dev.prev()/ dev.set()/ dev.off()
3. title() #为图形添加标题和坐标轴标签
4. axis(1,at=,labels=,tick=) #创建自定义的坐标轴,1=below,2=left,3=above,4=right
5. lines() #为现有图形添加新的图形元素
6. abline() #为图形添加参考线
7. lowess() /loess() #添加拟合的平滑曲线
8. par()#设定图形参数,参数no.readonly=TRUE可以生成一个可以修改的当前图形参数列表;参数mfrow=c(nrows, ncols)来按行填充矩阵;mfcol按列填充矩阵(与layout作用相似) —不熟悉
9. 常用图形参数:pch 绘制点使用的符号;
lty 线条类型;
col 颜色;
main 标题;
xlab/ylab 坐标轴标签;
cex 符号的大小,缩放倍数;
fg 前景色
bg 背景色/填充色
lwd 线条宽度
10. legend() #添加图例,参数bty="n"图例框是否画出
title() #添加标题和坐标轴标签
axis() #创建自定义的坐标轴
11. text()/mtext() #将文本添加到图形上
12. layout() #分割图形区域,组合图形
13. coplot(a ~ b | c*d) #协同图
14. scatterplot(a~b | c, data=, span= , legend.plot=, id.method=, labels=, boxplots= ) #car包,散点图,span参数控制loess曲线中的平滑量,参数值越大,拟合的越好;id.method表明可通过鼠标单击来交互式的识别数据点;
15. 散点图矩阵pairs(formula, data=) #多变量, formula例如~a+b+c;可创建基础的散点图矩阵
scatterMatrix(formula, data=, spread=, smoother.args=) #散点图矩阵, formula例如~a+b+c
glus包的cpars()函数; TeachingDemos包的pairs2()函数; HH包的xysplom()函数; ResourceSelection包的kepairs()函数; SMPracticals包的pairs.mod()函数
16. 高密度散点图smoothScatter() #可利用核密度估计生成用颜色密度来表示点分布的散点图
hexbin() #hexbin 包,将二元变量的封箱放到六边形单元格中,用六边形封箱图展示的各点上覆盖观测点数目的散点图。
IDPmisc包的ipairs()函数
17. 三维散点图scatterplot3d(x, y, z) #scatterplot3d包,参数type="h"添加点与水平面的垂直线;还可与lm()函数一起添加回归面,$plane3d()
18. 旋转三维散点图plot3d(x, y, z) #rgl包,可通过鼠标旋转坐标轴
scatter3d(x, y, z) #car包,默认添加线性平面
19. 气泡图symbols(x, y, circle= ,fg=, bg=, ) #参数circle=圆圈半径(例circle=sqrt(z/pi));可在指定的(x,y)坐标上绘制圆圈图、方形图、星形图、温度计图和箱线图
20. 相关图 --检验定量变量中众多二元关系的一种有效方式corrgram(x, order=, panel= , text.panel=, diag.panel) #corrgram 包,order=TRUE时相关矩阵将使用主成分分析法对变量重排序,panel设定非对角线面板使用的元素类型,通过lower.panel=,upper.panel来分别设置主对角线下方和上方的元素类型;
colorRampPallette() #指定颜色
21. 马赛克图 --两个以上类别性变量mosaic(table) or mosaic(formula, data=) #vcd包,添加选项shade=TRUE将根据拟合模型的皮尔逊残差值对图形上色,选项legend=TRUE将展示残差的图例
基本数据管理增加数据框的变量transform() #创建新变量
within(dateframe,{ })
dplyr数据处理包的mutate() #可以直接调用前面的新增变量
2. names() #重命名变量
rownames()
colnames()
3. 缺失值判别是否缺失值:is.na() / complete.cases()
对于不符合常理的值定义为缺失值:df$column[df$column==value]
展示出数据中缺失的行:df[!complete.cases(df),]
替换缺失值:df[is.na(df)]
排除缺失值 : 多数函数中自带参数na