大家好,之前有分享过添加新的行,俗话说有加就有减,因此这次分享的将是删除数据。之前有讲过通过索引进行删除数据,这次要分享的是删除重复数据,这也是数据预处理中很常用的一种处理要求。
删除重复数据的方式就多种,常见的是以下三种方式:
1,duplicated()函数
duplicated()函数能够确定向量或数据框中的重复元素,返回值为指出哪个或哪行是重复的逻辑型向量。
其完整形式为:duplicated(x, incomparables = FALSE, ...)。
其中,参数x可为向量、数据框、数组或NULL。
其中,向量a中第五个元素开始是重复的,因此后面几个元素返回值都为TRUE。数据框B中,第四行和第五行是和前面内容重复的,因此返回值的第四个第五个元素为TRUE。
参数incomparables指定的是不能进行比较的值形成的向量,默认取值为FALSE: