第四章 基本数据管理
- 创建新变量
transform()函数:可为原数据框添加新的列 - 变量的重编码
within()函数 - 变量的重命名
fix()函数,可调用一个交互式的编辑器
names()函数,以编程方式重命名
rename()函数,使用格式:rename(dataframe,c(oldname=“newname”,oldname=“newname”,…)) - 缺失值
函数is.na()允许你检测缺失值是否存在
处理缺失值时:1.缺失值不可比较 2.R不能把无限的或者不可能出现的数值标记成缺失值
注意:
确保所有的缺失数据已在分析之前被妥善地编码为缺失值
需要在进一步分析之前以某种方式删除这些缺失值
函数中的na.rm=TRUE选项,可在计算之前移除缺失值并使用剩余值进行计算
函数na.omit()可移除所有含有缺失值的观测 - 日期值
函数as.Date()用于执行日期形式的转化
Sys.Date()可以返回当天的日期
函数format(x,format=“output_format “)可输出指定格式的日期值,并提取日期值中的某些部分
函数difftime()可计算时间间隔
as.character()可将日期值转换为字符型 - 类型转换
函数is.datatype()返回TRUE或FALSE,函数as.datatype()将参数转换为对应的类型 - 数据排序
order()函数,默认是升序 - 数据集的合并
添加列:
merge()函数,两数据框通过一个或多个共有变量进行联结的
cbind()函数,直接横向合并两个矩阵或数据框
添加列:
rbind()函数 - 数据集取子集
选入变量:paste()函数
剔除变量:1⃣️%in% 2⃣️某一列下标前加一个减号(-) 3⃣️直接设为未定义(NULL)
选入观测:进行逻辑比较
subset()函数:可用来选择变量和观测
随机抽样:sample()函数