在进行数据的预处理时,我们常常关注有无重复数据,如果两行数据完全一致,则可能存在数据的重复录入等情况,此时就要对这两行数据进行核实。但这个过程如何用R语言实现?笔者近期对这个问题进行了探索。
我们首先虚拟一个数据,并将这个数据保存为CSV文件,命名为"a.csv“,数据如下图:
我们首先读入数据,并查看数据读入是否正确:
a<-read.csv("a.csv")
head(a)
R语言里有一个判断重复值的函数duplicated,可以分别运行如下三行程序,分别输出每一行数据和前面是否是重复的,重复数据,重复数据所在的行:
duplicated(a)
a[duplicated