年前在SRCC进行数据处理,碰到了瓶颈,就是python循环遍历处理大量数据,这时的效率低的可怜,也没找到啥好的办法,年后现在接着找,非要搞出个名堂来…
现在将找到的一些资料都记录在这,备用。
1. Pandas 内存优化
x. 小技巧
-
实测表明,for语句一般比while语句效率更高,xrange一般比range要高效;
-
如果要存储动态数据(即有可能频繁变动的数据)少用list和str,多用dict,元组更快;
-
两个str的连接效率从高到低+=,join,+,
多个str的连接效率从高到低join,+=,+;
-
尽可能使用列表解析表达式和生成器表达式代替循环一遍来构建list;
-
避免使用global关键字,无论是从代码效率还是可移植性的方面考虑;