以下是一些加快 pandas 项目速度的技巧:
使用有效的数据结构。pandas DataFrame 非常高效,但对于项目中不需要完整 DataFrame 功能的部分,请考虑使用 NumPy 数组或字典等替代方案。
检查您的数据类型。确保字符串、浮点数、整数、布尔值等存储为最佳数据类型。这可以避免不必要的类型转换。
使用矢量化运算。.apply()、.map() 和 .fillna() 等矢量化调用比迭代 DataFrame 行要快得多。
使用 .loc[] 和 .iloc[] 而不是 .ix[]。.loc[] 和 .iloc[] 索引的性能更高。
使用 numexpr 进行复杂的计算。numexpr 库可以加速 DataFrame 上的数值运算。
并行化操作。您可以使用多处理或 dask 并行化一些 pandas 操作。
批量写入磁盘。将每一行写入磁盘的速度很慢。分批写入。
经常清理。随着时间的推移,删除变量和清除缓存可以提高性能。
分析您的代码。使用 cProfile、pandas 的 .profile_ Playground 或 Line Profiler 等工具来查找瓶颈。
优化您发现的任何瓶颈。您可能需要重写一些逻辑、使用不同的算法或切换到 NumPy。
关注我的博客,您将在其中获得提示、技巧和挑战,以保持您的技能敏锐。记得关注我哦!