关于python处理大量数据时的性能调优

本文探讨了在处理企业级大数据时,由于代码问题导致的CPU高负荷和内存耗尽的情况。建议关注循环处的代码优化,减少循环与判断,避免变量直接赋值,并谨慎使用第三方库,特别是numpy和pandas,提倡用更高效的方法替代。同时,提醒避免过多的self定义和全局变量,以提升代码效率。
摘要由CSDN通过智能技术生成

一、出现场景

当面对企业级大数据处理时,因为代码本身,导致CPU高负荷运行,内存基本占用满,代码依旧未响应,如果真的因为数据量的问题那么就应该考虑,优化本地运行环境,或是使用专业的高性能运算服务器来完成。

二、解决办法

  1. 如果代码中无类或函数,关注循环处的代码,有其它方法尽可能避免循环与判断,尽量避免变量直接赋值给变量,如:a = b
  2. 如果代码里有类或函数,避免定义多个self,避免大量使用全局变量
  3. 最重要的是关注第三方库,需要使用numpy或者pandas这些库时,注意自己的需求,非独有功能尽量避免使用它们来运算,例如,要行索引相同的他们对应的值相加,完全可以用list方法来实现
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值