pandas
BeKnown
这个作者很懒,什么都没留下…
展开
-
pandas使用记录
pandas使用记录apply函数apply返回多列,并赋值tqdm Apply 看运行进度多进程-apply函数groupby函数获取groupby分组里最大值所在的行方法(效率较高)为了记录在使用pandas时,不常使用,但很重要的技巧apply函数apply返回多列,并赋值import pandas as pddf_tmp = pd.DataFrame([ {"a":"data1", "cnt":100},{"a":"data2", "cnt":200},])# df_tmp原创 2021-02-20 14:53:36 · 195 阅读 · 0 评论 -
pandas常用操作修改为PySpark
pandas常用操作修改为PySparkSpark版本:2.1.0python: 2.7/3.5+这里主要将如何把pandas里groupby和apply操作转化为pyspark,并且apply中使用了自定义的复杂函数。定义pyspark_udaf.py文件:import loggingimport pandas as pdimport osimport sysfrom itertools import chainfrom functools import wrapsimport nu原创 2020-08-26 18:25:48 · 679 阅读 · 0 评论