重编码就是根据同一变量(或和其他变量)的现有值创建新值的过程。
如
- 将一个连续变量修改为一组类别值;
如将具体的年龄重编码为年轻,中年,老年。 - 将误编码的值替换成为一个正确值;
- 基于一组分数线创建一个表示及格/不及格的变量
要重编码数据,可以使用R中的一个或者多个逻辑运算符
逻辑运算后会返回TRUE 或者FALSE
重编码方法(举例说明):
对于名为mydata数据框:
> mydata
x1 x2 sum mean
1 1 5 6 3
2 2 6 8 4
3 3 7 10 5
4 4 8 12 6
当sum 值小于7时为low,大于11时为high,否则为middle,创建range变量:
> mydata$range[mydata$sum>11]<-"high"
> mydata$range[mydata$sum>=7&mydata$sum<=11]<-"middle"
> mydata$range[mydata$sum<7]<-"low"
> mydata
x1 x2 sum mean range
1 1 5 6 3 low
2 2 6 8 4 middle
3 3 7 10 5 middle
4 4 8 12 6 high