spark
yuan.jin
这个作者很懒,什么都没留下…
展开
-
spark的真正用途
发现spark并不是用来处理数据的,它是一门玄学。比如明明最后生成的文件中有那一条,但是中间想单个filter出来,有时候会提示没有那条样本。得靠运气。...原创 2020-05-08 17:08:24 · 1040 阅读 · 0 评论 -
spark处理嵌套json
json文件数据如下:{“avg_orders_count”: [{“count”: 1.0, “days”: 3}, {“count”: 0.6, “days”: 5}, {“count”: 0.3, “days”: 10}, {“count”: 0.2, “days”: 15}, {“count”: 0.1, “days”: 30}, {“count”: 0.066, “days”: 45}...原创 2019-01-10 15:52:23 · 3097 阅读 · 0 评论 -
TypeError: expected string or Unicode, NoneType found
原因是spark存储数据时,会根据数据的前几行(可以设置)判断数据格式(schema),如果数据前几行有一些数据为None,那么无法确定数据的schema,所以报错。解决方案:方法1.按照官方文档为数据定义格式:方法2.填补缺失值为指定数值,dataframe的fillna()函数,例如:df.fillna('unknown')设置所有空值为字符串:‘unknown’...原创 2019-01-11 15:32:35 · 3401 阅读 · 0 评论 -
TypeError: can't pickle dict_keys objects解决办法
spark map(f)f函数包含dict.keys()或者dict.values()报错:TypeError: can’t pickle dict_keys objects解决办法:list(dict.keys())原创 2019-01-15 14:15:42 · 11003 阅读 · 3 评论 -
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。为何要处理数据倾斜(Data Skew)什么是数据倾斜对Spark/Hado...转载 2019-09-03 16:00:10 · 791 阅读 · 1 评论