- 博客(5)
- 资源 (4)
- 收藏
- 关注
原创 IDEA build Spark Artifact包 控制jar大小
使用IDEA打Spark jar包我们使用Scala编写Spark程序代码,需要将编译好的jar放到集群环境中跑任务,但是集群中大部分的依赖包已经存在了,我们就不需要将其再次打入到Spark程序包中,这个操作类似于用Maven打包的<scope>provided</scope>今天抽空写一下用IDEA build Artifact包。PS :Scala开发环境以及使用...
2020-01-18 15:36:32 654
原创 SparkStreaming maxRatePerPartition参数
SparkStreaming每次读取Kafka数据量的问题假设:我们的Sparkt window窗口设置10s(10s拉取一次kafka数据)Kafka的Partition有3个maxRatePerPartition设置为5000那么Spark每次拉取的数据为 10s * 3 * 5000 = 150000 条我们知道使用SparkStreaming的Direct模式消...
2020-01-18 14:50:41 1872 2
原创 解决同步Kafka集群,消费不到数据
今天使用华为云(Dest)同步金山云(Source)Kafka数据时,华为云一点点响应都没。我登录控制台尝试直接启动Consumer去消费,结果也是一样消费不到数据!接着就是确认网络通不通的问题了!ping 一下 ok 通的telnet 一下 ok 可以进入9092端口的那么到底哪里出了问题了呢?左思右想不得琦姐。出去走了一圈突然想到了,以前在自己搭建的大数据环境上也遇到过这种问题...
2020-01-15 16:51:31 1387
原创 Spark程序调用json4s报错[java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/Js]
直接使用Spark中自带的Json4s 就解决了。我的pom中指定了Json4s,如下: <dependency> <groupId>org.json4s</groupId> <artifactId>json4s-jackson_2.11</artifactId> <version>3....
2020-01-13 15:21:31 1711
原创 org.apache.hadoop.yarn.client.api.async.impl.AMRMClientAsyncImpl - Interrupted while waiting for qu
今天用华为云MRS跑Spark On Yarn 报出一个没见过的错误2020-01-13 10:49:44,667 [AMRM Callback Handler Thread] INFO org.apache.hadoop.yarn.client.api.async.impl.AMRMClientAsyncImpl - Interrupted while waiting for queue...
2020-01-13 12:08:52 3426 1
bigdata面试.zip
2020-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人