目录
R语言第二章数据处理③删除重复数据
================================================
这篇主要介绍如何在R中识别和删除重复数据。
主要用的到R base和dplyr函数:
duplicated():用于识别重复的元素和
unique():用于提取唯一元素,
distinct()[dplyr package]删除数据框中的重复行。
x
duplicated(x)
## [1] FALSE TRUE FALSE FALSE FALSE TRUE FALSE
x[duplicated(x)]
## [1] 1 4
x[!duplicated(x)]
## 1, 1 2,4, 5, 6
根据某一列删除数据框中重复值
# Remove duplicates based on Sepal.Width columns
my_data[!duplicated(my_data$Sepal.Width), ]
## # A tibble: 23 x 5
## Sepal.Length Sepal.Width