excel处理几十万行数据_还在为Excel数据多而苦恼，python黑科技让分分钟整理几万行...

最新推荐文章于 2022-10-11 16:10:42 发布

weixin_39886251

最新推荐文章于 2022-10-11 16:10:42 发布

阅读量183

点赞数

文章标签： excel处理几十万行数据

本文链接：https://blog.csdn.net/weixin_39886251/article/details/111481355

版权

一个朋友在某运动品牌公司上班，老板给他布置了一个处理客户订单数据的任务。要求是根据订单时间和客户id判断生成四个新的数据：

1、记录该客户是第几次光顾

2、上一次的日期时间是什么时候

3、与上次订单的间隔时间

4、这是一个existing客户还是一个new客户(见定义)

**文件说明：**

1、第一列是订单日期和时间(乱序)

2、第二列是客户的id

3、第三列不需要使用

4、60+万行数据

**相关定义如下：**

1、existing：此次下单日期时间与上次日期时间的距离在N天以内，精确到时间(时分秒)

2、new：即超过N天

> **注：想学习Python的小伙伴们进群：850973621领取从0到1完整学习资料视频源码精品书籍一个月经典笔记和99道练习题及答案**

![QQ截图20201214142838.png](https://upload-images.jianshu.io/upload_images/25205170-48721eaff6beaf19.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

![image](//upload-images.jianshu.io/upload_images/12650374-71c5d8ada7b91a8e?imageMogr2/auto-orient/strip|imageView2/2/w/640/format/webp)

整体思路

**1、读取表格的行数据存储成list，并按照时间列的升序排序。**

**2、维护一个map(在python里是字典dict)，每个用户 id 作为key，一个二元组(第几次下单，上一次的日期时间)作为value。**

**3、遍历表格行数据的list。判断客户 id 是否已经存在于map中，若首次出现，则置该客户 id 在map中的value为[1,'首次下单']，对应行数据新增的4个数据为[1，'首次下单',该次日期时间与上次日期时间差，'new']。若已经存在，则更新map中对应的value为[原次数+1，该次日期时间]，对应行数据新增的4个数据为[原次数+1，上次日期时间，间隔时间，new/existing取决于间隔时间与预设N]。**

**4、将修改过后的行数据list写入到Excel工作簿并保存。**

读取表格数据

我们可以用xlrd模块对Excel文件进行读取，以便进一步分析处理数据。示例代码如下：

![image](//upload-images.jianshu.io/upload_images/12650374-dedeec59adaf381c?imageMogr2/auto-orient/strip|imageView2/2/w/675/format/webp)

以上代码成功输出前100行的日期则说明已经成功读取到数据。输出结果如下：

![image](//upload-images.jianshu.io/upload_images/12650374-e516614d302bdf30?imageMogr2/auto-orient/strip|imageView2/2/w/524/format/webp)

既然读取文件没有问题，进一步浏览整个文件发现存在多余的空行和重复的标题行在读取和转存中可以用正则匹配过滤掉这些行。

![image](//upload-images.jianshu.io/upload_images/12650374-ee435890e23c5483?imageMogr2/auto-orient/strip|imageView2/2/w/623/format/webp)

将读取的行数据转存到list中，以便进行排序。

![image](//upload-images.jianshu.io/upload_images/12650374-a5915f04c73adfa6?imageMogr2/auto-orient/strip|imageView2/2/w/640/format/webp)

将修改后的行数据list写入Excel表格并保存为xslx格式

![image](//upload-images.jianshu.io/upload_images/12650374-ef6403d0490530c4?imageMogr2/auto-orient/strip|imageView2/2/w/640/format/webp)

结果展示

![image](//upload-images.jianshu.io/upload_images/12650374-d2630ac9315ea682?imageMogr2/auto-orient/strip|imageView2/2/w/640/format/webp)

完整代码

![image](//upload-images.jianshu.io/upload_images/12650374-77ccac3503bb0d98?imageMogr2/auto-orient/strip|imageView2/2/w/640/format/webp)

作者：编程新视野

链接：https://www.jianshu.com/p/70e30e72dd76

来源：简书

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

weixin_39886251

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
excel处理几十万行数据_还在为Excel数据多而苦恼，python黑科技让分分钟整理几万行...

一个朋友在某运动品牌公司上班，老板给他布置了一个处理客户订单数据的任务。要求是根据订单时间和客户id判断生成四个新的数据：1、记录该客户是第几次光顾2、上一次的日期时间是什么时候3、与上次订单的间隔时间4、这是一个existing客户还是一个new客户(见定义)**文件说明：**1、第一列是订单日期和时间(乱序)2、第二列是客户的id3、第三列不需要使用4、60+万行数据**相关定义如下：**1、...
复制链接

扫一扫

excel处理几十万行数据_还在为Excel数据多而苦恼，python黑科技让分分钟整理几万行...

“相关推荐”对你有帮助么？