- 博客(3)
- 资源 (15)
- 收藏
- 关注
原创 SparkStreaming编程优化经验
1.代码精简、逻辑清晰代码的精简往往能带来很大的提升,这一点甚至比外部的调优效果更好。比如去除一些不必要的filter、选择合适的算子2.避免shuffle所谓shuffle,就是在网络间传输数据。Spark作业运行过程中,最消耗性能的地方就是shuffle过程。shuffle过程,简单来说,就是将分布在集群中多个节点上的同一个key,拉取到同一个节点上,进行聚合或join等操作。比如red...
2018-12-11 11:29:21 720
原创 Spark 引用ProtoBuffer报错:Unable to find proto buffer class
使用 yarn 的spark-submit提交时,加入超序列化参数:--conf spark.serializer=org.apache.spark.serializer.KryoSerializer \另,附:Spark-submit提交作业的shell版本模板。一个好的shell脚本,不仅让人看起来赏心悦目,更易于查找问题,方便交接#!/bin/sh>>descr...
2018-12-02 11:51:27 966
原创 Spark异常:task cannont be Serializable
原因:在入库操作中,在 map\foreachePartition 等等分布式环境中new了连接对象(可以是redis、mysql等等),而此连接对象只能在本机起作用他们无法被序列化,所以在别的机器中找不到连接对象类似下例代码,就会抛出该错:val imClient = MistoreClientFactory.getMistoreClient(cateLog)rsRdd .map(w...
2018-12-02 08:08:38 471 3
zjf-20200418-train-data-origin.csv
2020-04-20
metrics-core-2.2.0.jar
2017-09-21
netty-all-4.0.23.Final.jar
2017-09-21
SecureCrt x64
2017-09-14
新闻发布系统
2016-06-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人