python 去除excel中重复的值并统计重复次数

帮对象处理所需数据时的代码——第四弹(实现功能:文本数据去重,创建包含唯一值的新列,并统计文本数据出现的次数)

第一部分:数据读取和统计

程序使用`pd.read_csv`函数逐块读取CSV文件,并将每块的数据类型设置为字符串。然后使用`pd.Series`创建一个空的Series对象`value_counts`,用于存储每个值的重复次数。使用`chunk.values.ravel()`获取所有文本数据,并使用`value_counts`函数统计每个值的重复次数。最后,通过`value_counts.add`函数将每块的统计结果累加到`value_counts`中。
 

from tqdm import tqdm
import pandas as pd

# 读取CSV文件,并指定数据类型为字符串
chunksize = 1000000  # 每次读取的块大小
value_counts = pd.Series(dtype=int)

for chunk in tqdm(pd.read_csv(r"C:\Users\dell\Desktop\表格一.csv", dtype=str, chunksize=chunksize), total=1219):
    # 获取所有文本数据并统计每个值的重复次数
    counts = pd.Series(chunk.values.ravel()).value_counts()
    value_counts = value_counts.add(counts, fill_value=0)

 第二部分:结果处理和排序

首先,使用`value_counts.reset_index()`将`value_counts`的索引重置,并将列名改为'经营范围'和'重复次数'。然后,使用`value_counts.sort_values`按重复次数从高到低对数据进行排序。

# 重置索引并按重复次数从高到低排序
value_counts = value_counts.reset_index()
value_counts.columns = ['城市', '重复次数']
value_counts = value_counts.sort_values(by='重复次数', ascending=False)

  第三部分:结果保存和进度条显示

程序使用`tqdm(total=len(value_counts), desc='Processing')`创建了一个进度条对象`pbar`,并设置进度条的总长度为`value_counts`的长度。接着,使用`value_counts.to_csv`将排序后的结果保存到新的CSV文件中,并设置`index=False`以避免保存索引列。然后,使用`pbar.update()`更新进度条,表示处理完成。最后,关闭进度条并输出一条完成消息。

# 创建进度条
pbar = tqdm(total=len(value_counts), desc='Processing')

# 保存结果到新的CSV文件
value_counts.to_csv(r"C:\Users\dell\Desktop\表格二.csv", index=False)

# 更新进度条
pbar.update()

# 关闭进度条
pbar.close()

# 输出消息
print("已经去重完成,丫头!")

完整代码: 

from tqdm import tqdm
import pandas as pd

# 读取CSV文件,并指定数据类型为字符串
chunksize = 1000000  # 每次读取的块大小
value_counts = pd.Series(dtype=int)

for chunk in tqdm(pd.read_csv(r"C:\Users\dell\Desktop\表格一.csv", dtype=str, chunksize=chunksize), total=1219):
    # 获取所有文本数据并统计每个值的重复次数
    counts = pd.Series(chunk.values.ravel()).value_counts()
    value_counts = value_counts.add(counts, fill_value=0)

# 重置索引并按重复次数从高到低排序
value_counts = value_counts.reset_index()
value_counts.columns = ['城市', '重复次数']
value_counts = value_counts.sort_values(by='重复次数', ascending=False)

# 创建进度条
pbar = tqdm(total=len(value_counts), desc='Processing')

# 保存结果到新的CSV文件
value_counts.to_csv(r"C:\Users\dell\Desktop\表格二.csv", index=False)

# 更新进度条
pbar.update()

# 关闭进度条
pbar.close()

# 输出消息
print("已经去重完成,丫头!")

总体而言,该程序的目标是读取一个较大的CSV文件,统计其中每个值的重复次数,并将结果按重复次数从高到低进行排序和保存。同时,使用进度条显示处理的进度,以提供可视化的反馈。

如有不足,欢迎指正!!!

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
在MySQL,有两种常用的方法可以进行去重计数:使用DISTINCT关键字和使用GROUP BY关键字。 第一种方法是使用DISTINCT关键字。可以使用以下语句进行去重计数: SELECT COUNT(DISTINCT record_id) FROM assessment_record_date WHERE date_type = 1 and DATE_FORMAT( the_date,'%Y-%m') = DATE_FORMAT(NOW(),'%Y-%m') 这个语句将返回去重之后的总数量。 第二种方法是使用GROUP BY关键字。可以使用以下语句进行去重计数: SELECT COUNT(record_id) FROM assessment_record_date WHERE date_type = 1 and DATE_FORMAT( the_date,'%Y-%m') = DATE_FORMAT(NOW(),'%Y-%m') GROUP BY record_id 这个语句将返回分组之后的每组数据的总数。 总结起来,这两种方法都可以实现MySQL的去重计数,具体使用哪种方法取决于你想要的结果。如果你需要得到去重之后的总数量,可以使用DISTINCT关键字;如果你需要得到每组数据的总数,可以使用GROUP BY关键字。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [mysql去重统计](https://blog.csdn.net/qq_42604017/article/details/126118577)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [MySQL去除重复的数据](https://blog.csdn.net/weixin_38192427/article/details/108860809)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

~玲儿响叮当~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值