![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
la_啦
hello,大家好
展开
-
pyspark报错: invalid stream header
当我对rdd进行map操作的时候,就是添加一个字段,表示其中的两个字段是否相等,然后报这个错误。 Google后也没找到确切的解决方案,因为是用python编程,对java不熟悉,估计是java对象读写数据的时候发生的问题. google的答案: I can tell you that this usually means somewhere something wrote ob原创 2016-11-08 16:46:30 · 1954 阅读 · 0 评论 -
解决Excel另存为csv文件在linux上乱码问题
首先excel另存为的时候,选择保存为csv文件类型,有个工具的选项,编码那里选择unicode,保存。 这样在linux上面还是乱码的,要用文本编辑器打开刚刚保存的csv文件,然后另存为,编码方式选择utf-8. 这样就不会乱码啦!原创 2016-12-28 17:49:25 · 8984 阅读 · 0 评论 -
spark rdd根据某一列去重
比如一个rdd有两列 name age name有重复的,现在要根据name来去重 m = rdd.map(lambda r:(r[0],r)) r = m.reduceByKey(lambda x,y:x)首先先生成一个以该列为标准去重的key,该行为value,然后调用reduceByKey就可以啦原创 2016-12-29 12:01:25 · 17762 阅读 · 0 评论 -
spark rdd aggregate (python语言)
aggregate(zeroValue, seqOp, combOp) seqOp操作会聚合各分区中的元素,然后combOp操作把所有分区的聚合结果再次聚合,两个操作的初始值都是zeroValue. seqOp的操作是遍历分区中的所有元素(y),第一个y跟zeroValue做操作,结果再为与第二个y做操作,直到遍历完整个分区。combOp操作是把各分区聚合的结果,再聚合。aggregate函原创 2017-07-27 16:18:37 · 2439 阅读 · 0 评论