pandas处理parquet timestamp出的车祸

最新推荐文章于 2024-02-14 23:30:01 发布

ColorfulChicken

最新推荐文章于 2024-02-14 23:30:01 发布

阅读量140

点赞数 1

文章标签： pandas spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Nickname_li/article/details/132433400

版权

问题

要对parquet文件进行匿名化处理，需要读写parquet文件，我用了pandas库进行处理，但是遇到了timestamp精度的问题。当时以为只是简单的精度截断，不影响最终效果，所以没太在意，结果截断之后不能用spark读取了，因为spark无法读取早于1900年的timestamp，而截断导致9999-m-d变成了1816-m-d。
说来轻松，但是定位bug到这里还是费了亿番功夫。测试发现使用pandas和pyarrow都存在这样的问题。使用了参数allow_truncated_timestamps，这会导致截断。但是使用了use_deprecated_int96_timestamps仍然会导致截断，不清楚具体原因

结论

用spark处理parquets

ColorfulChicken

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
pandas处理parquet timestamp出的车祸

要对parquet文件进行匿名化处理，需要读写parquet文件，我用了pandas库进行处理，但是遇到了。当时以为只是简单的精度截断，不影响最终效果，所以没太在意，结果截断之后不能用spark读取了，因为spark无法读取早于1900年的timestamp，而截断导致9999-m-d变成了1816-m-d。说来轻松，但是定位bug到这里还是费了亿番功夫。测试发现使用pandas和pyarrow都存在这样的问题。使用了参数，这会导致截断。
复制链接

扫一扫

ColorfulChicken CSDN认证博客专家 CSDN认证企业博客

码龄5年

15: 原创

140万+: 周排名

11万+: 总排名

8884: 访问

: 等级

203: 积分

34: 粉丝

45: 获赞

11: 评论

38: 收藏

私信

关注

热门文章

最新评论

记一次Mac brew service start失败
Andy Dennis: 我又遇到类似问题，然后重启一下好了 [code=bash] brew services restart rabbitmq [/code]
为什么我在python里修改了一个list中的元素的值，另一个list也改变了呢？
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
bash alias传参
普通网友: 支持一下！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
bash alias传参
CSDN-Ada助手: 恭喜您发布了第15篇博客“bash alias传参”！持续创作是不易的，您的努力和热情让我们看到了您对技术的热爱和专注。希望您能继续分享更多有关bash alias传参的知识和经验，也可以尝试写一些关于bash脚本优化或者实用技巧的文章，相信会受到更多读者的喜爱和关注。期待您的下一篇作品！
git add/commit如何撤销（转载）
CSDN-Ada助手: 恭喜您发布了第13篇博客，内容也非常实用！关于“git add/commit如何撤销”的介绍十分详细，让读者受益匪浅。接下来，建议您可以尝试写一些关于git branch/merge/rebase等更深入的内容，这些对于版本控制的理解也非常重要。期待您的下一篇作品，加油！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。