python日常数据清洗问题

本文分享了作者在数据清洗过程中遇到的挑战,包括日期清洗、数据分列合并、时间段处理(动态时间差与固定时间段统计)以及Excel数据表合并问题。文章详细介绍了使用Python的pandas库解决这些问题的方法,例如利用replace、explode函数以及时间差计算等技巧,并提供了部分代码示例。
摘要由CSDN通过智能技术生成

这个博客是记录一下平时工作中遇到的一些比较常见但不太好处理的数据清洗问题,博主还是个刚入职场的小白,目前遇到的场景问题还比较少,但我会一直更新的~

1. 清洗日期

在工作中经常会遇到需要清洗日期时间数据
在这里插入图片描述
我的想法是把数据拆解开在用replace进行替换,然后在粘贴在一起

df = pd.read_excel('test.xlsx')
df['日期'] = df['日期'].astype(str)
date['year'] = df['日期'].str[0:4]
date['mm'] = df['日期'].str[4:6].replace('tt','00').replace('','00')
date['dd'] = df['日期'].str[6:8].replace('tt','00').replace('','00')
df['日期'] = date['year']+date['mm']+date['dd']

这时日期这列数据会清洗为如下
在这里插入图片描述
可以根据需求替换修改内容,不知道有没有大佬有更方便的方法,欢迎交流~

2. 数据分列合并

想把下图中的数据展开并在一列中展示
在这里插入图片描述
这里我想到的是先把这列数据拆分开在用explode函数进行展开

df['阿斯顿'] = df['阿斯顿'].str.split(";") 
data = df.explode('阿斯顿').reset_index(drop = True)
data.drop_duplicates(inplace = True) 

展开结果
在这里插入图片描述

3. 时间段数据处理

3.1 某个时间差内字段出现频次大于2(动态时间)

在这里插入图片描述
当前需求为:查找30分钟内id出现2次以

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值