python 数据处理
RHobart
探索一切未知的东西
展开
-
纪念一次GC overhead limit exceeded的问题
环境:pycharm-2020.1 + spark-2.3.3(单机默认配置)需求:需要将dataframe 中数据转成json 并写入到s3对象文件中,数据量大小为180.1M。解决方向:在不改变资源参数的情况下,解决GC问题(这只是其中方法之一)出错的核心代码如下:if __name__ == "__main__": """ 1. load the conf of es 2. build spark or sc 3. build原创 2020-11-06 15:17:17 · 435 阅读 · 0 评论 -
数据处理--列表相加
ls = [1,6,3,6,8]ls2 = [4,6,8,9,0]第一种方法:以最短的列表的长度为主rslt = [d[0]+d[1] for d in zip(ls,ls2)]第二种方法:for循环,以最短的列表长度为主length = len(ls) if len(ls) <= len(ls2) else len(ls2)new_list = [None] * l...原创 2018-11-13 21:06:03 · 2403 阅读 · 0 评论