python 去除excel中重复的值并统计重复次数

本文链接：https://blog.csdn.net/qq_48078719/article/details/131705118

该代码示例展示了如何使用Python的Pandas库处理CSV文件，逐块读取数据，进行文本去重，并统计每个值的出现次数。利用tqdm显示进度条，最终将结果按重复次数排序并保存到新CSV文件中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

帮对象处理所需数据时的代码——第四弹（实现功能：文本数据去重，创建包含唯一值的新列，并统计文本数据出现的次数）

第一部分：数据读取和统计

程序使用`pd.read_csv`函数逐块读取CSV文件，并将每块的数据类型设置为字符串。然后使用`pd.Series`创建一个空的Series对象`value_counts`，用于存储每个值的重复次数。使用`chunk.values.ravel()`获取所有文本数据，并使用`value_counts`函数统计每个值的重复次数。最后，通过`value_counts.add`函数将每块的统计结果累加到`value_counts`中。

from tqdm import tqdm
import pandas as pd

# 读取CSV文件，并指定数据类型为字符串
chunksize = 1000000  # 每次读取的块大小
value_counts = pd.Series(dtype=int)

for chunk in tqdm(pd.read_csv(r"C:\Users\dell\Desktop\表格一.csv", dtype=str, chunksize=chunksize), total=1219):
    # 获取所有文本数据并统计每个值的重复次数
    counts = pd.Series(chunk.values.ravel()).value_counts()
    value_counts = value_counts.add(counts, fill_value=0)

第二部分：结果处理和排序

首先，使用`value_counts.reset_index()`将`value_counts`的索引重置，并将列名改为'经营范围'和'重复次数'。然后，使用`value_counts.sort_values`按重复次数从高到低对数据进行排序。

# 重置索引并按重复次数从高到低排序
value_counts = value_counts.reset_index()
value_counts.columns = ['城市', '重复次数']
value_counts = value_counts.sort_values(by='重复次数', ascending=False)

第三部分：结果保存和进度条显示

程序使用`tqdm(total=len(value_counts), desc='Processing')`创建了一个进度条对象`pbar`，并设置进度条的总长度为`value_counts`的长度。接着，使用`value_counts.to_csv`将排序后的结果保存到新的CSV文件中，并设置`index=False`以避免保存索引列。然后，使用`pbar.update()`更新进度条，表示处理完成。最后，关闭进度条并输出一条完成消息。

# 创建进度条
pbar = tqdm(total=len(value_counts), desc='Processing')

# 保存结果到新的CSV文件
value_counts.to_csv(r"C:\Users\dell\Desktop\表格二.csv", index=False)

# 更新进度条
pbar.update()

# 关闭进度条
pbar.close()

# 输出消息
print("已经去重完成，丫头！")

完整代码：

from tqdm import tqdm
import pandas as pd

# 读取CSV文件，并指定数据类型为字符串
chunksize = 1000000  # 每次读取的块大小
value_counts = pd.Series(dtype=int)

for chunk in tqdm(pd.read_csv(r"C:\Users\dell\Desktop\表格一.csv", dtype=str, chunksize=chunksize), total=1219):
    # 获取所有文本数据并统计每个值的重复次数
    counts = pd.Series(chunk.values.ravel()).value_counts()
    value_counts = value_counts.add(counts, fill_value=0)

# 重置索引并按重复次数从高到低排序
value_counts = value_counts.reset_index()
value_counts.columns = ['城市', '重复次数']
value_counts = value_counts.sort_values(by='重复次数', ascending=False)

# 创建进度条
pbar = tqdm(total=len(value_counts), desc='Processing')

# 保存结果到新的CSV文件
value_counts.to_csv(r"C:\Users\dell\Desktop\表格二.csv", index=False)

# 更新进度条
pbar.update()

# 关闭进度条
pbar.close()

# 输出消息
print("已经去重完成，丫头！")

总体而言，该程序的目标是读取一个较大的CSV文件，统计其中每个值的重复次数，并将结果按重复次数从高到低进行排序和保存。同时，使用进度条显示处理的进度，以提供可视化的反馈。

如有不足，欢迎指正！！！