目录
写在前面:
数据分析的绝大部分工作是在整理用于分析的数据,数据管理一般会有以下问题:
创建新变量(或对已有的变量进行变换)、数据的缺失值处理、根据需求提取数据的子集、根据原有变量生成新的数据变量
创建新变量
需求:根据已有的变量将数据整合到数据框中。
原则:创建新的变量需要制定数据集。
变量的重编码
重编码:根据同一个变量和/或其他变量的现有值创建新的值的过程。我理解成是可以转换变量的数据类型,尤其是转换成类别变量
变量的重命名
交互式:fix(dataname)
编程方式:names()函数
一个包:plyr
缺失值
缺失值的观测:is.n