EXCEL、SQL、Python去重的方式分别是什么？

本文链接：https://blog.csdn.net/rubyw/article/details/140310345

在不同的工具和语言中，去重操作可以采用不同的方式实现：

Excel：
- 在Excel中去重可以通过数据选项卡下的“删除重复项”功能实现。
- 具体操作步骤是选择需要去重的数据范围，然后点击数据选项卡中的“删除重复项”按钮，在弹出的对话框中选择需要去重的列，并确认删除重复项即可完成去重操作。
SQL：
使用DISTINCT函数：
- 例如，对于一个表格中的某列数据，可以使用如下SQL语句进行去重操作：
```
SELECT DISTINCT column_name
FROM table_name;
```
- 这将返回指定列中唯一的值，去除重复项。
- 除了使用DISTINCT关键字外，SQL中还可以通过其他方式进行去重，具体取决于需要处理的数据和场景：

使用ROW_NUMBER()函数：

如果需要保留重复行中的某一个，可以使用ROW_NUMBER()函数和PARTITION BY子句来标记和删除重复项。

示例：

WITH CTE AS (
    SELECT column1, column2,
           ROW_NUMBER() OVER (PARTITION BY column1 ORDER BY column2) AS rn
    FROM table_name
)
SELECT column1, column2
FROM CTE
WHERE rn = 1;

这将根据column1列的值去除重复项，并保留每个column1值中column2值排序第一的行。

使用GROUP BY和聚合函数：

可以结合GROUP BY和聚合函数（如MIN()、MAX()）来去除重复项。

示例：

SELECT column1, MAX(column2) AS column2
FROM table_name
GROUP BY column1;

这将对column1分组，并保留每个分组中column2值最大的行，从而实现去重。

使用EXISTS子查询：

可以利用EXISTS子查询来查找并删除重复行。

示例：

DELETE FROM table_name t1
WHERE EXISTS (
    SELECT 1
    FROM table_name t2
    WHERE t1.column1 = t2.column1
    AND t1.column2 > t2.column2
);

这将删除具有相同column1值但column2值更小的重复行。

这些方法可以根据具体情况选择合适的去重策略，在处理复杂的数据去重需求时特别有用。如果有特定的数据处理场景或者更多的问题，请随时告诉我！

Python：
- 在Python中进行列表或者数据集合的去重可以使用集合（set）或者pandas库。
- 使用集合可以很简单地去除重复项，例如：
```
my_list = [1, 2, 2, 3, 4, 4, 5]
unique_items = list(set(my_list))
```
- 使用pandas库可以对DataFrame进行去重操作，例如：
```
import pandas as pd

df = pd.DataFrame({'A': [1, 1, 2, 3, 3], 'B': ['a', 'b', 'b', 'c', 'c']})
df_unique = df.drop_duplicates()
```
- 上述代码将基于所有列去除DataFrame中的重复行。
在 Python 中，通常使用不同的方法来处理列表或者数组中的唯一值。这取决于你使用的数据结构和需要的功能。

使用集合（Set）实现唯一值

在 Python 中，最简单的方法是使用集合（Set），因为集合中不允许重复值。

my_list = [1, 2, 2, 3, 4, 4, 5]
unique_items = list(set(my_list))
print(unique_items)  # [1, 2, 3, 4, 5]

这种方法适用于简单的列表，并且速度很快，但是它会改变元素的顺序。

使用列表推导式实现唯一值

如果想保持原始顺序，可以使用列表推导式：

my_list = [1, 2, 2, 3, 4, 4, 5]
unique_items = []
[unique_items.append(x) for x in my_list if x not in unique_items]
print(unique_items)  # [1, 2, 3, 4, 5]

这种方法遍历列表并仅添加未见过的元素，以保留原始顺序。

使用 NumPy 和 pandas 处理数组和数据框中的唯一值

如果你在处理 NumPy 数组或者 pandas 数据框（DataFrame），可以使用相应的方法：

NumPy 数组

import numpy as np

my_array = np.array([1, 2, 2, 3, 4, 4, 5])
unique_values = np.unique(my_array)
print(unique_values)  # [1 2 3 4 5]

pandas 数据框（DataFrame）

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 4, 5]})
unique_values = df['A'].unique()
print(unique_values)  # [1 2 3 4 5]

在 pandas 中，unique() 方法适用于 Series 或者 DataFrame 列，返回唯一的值数组。

这些方法适用于不同的数据结构和需求，可以根据具体情况选择最适合的方法来获取唯一值。

这些方法可以根据具体的需求和数据类型选择合适的去重方式，在数据处理和分析中应用广泛。如果你有特定的数据或者情境需要讨论，也可以告诉我！