- 博客(7)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 Spark缓存 之 Collect Cache Persist
Spark 之 Collect Cache Persist三者都有汇聚数据,拉取数据存储的作用,mark一下各自的作用。Collect: /** * Return an array that contains all of the elements in this RDD. * * @note This method should only be used if the resulting array is expected to be small, as * .
2020-06-29 20:13:49 903
原创 Scala 实现Python Arange
使用scala时有arange的需求,但是没有找到相对应函数,只找到了group,sliding函数,于是自己实现一个:目标:给定起点,终点和份数,得到arange结果实现:计算起始点长度与分类数,得到每一步的Step,然后循环添加即可。这里还加了隐式转换是为了函数传参类型转换。 private implicit def doubleToFloat(number: Double): Float ={ number.toFloat } private de..
2020-06-19 17:08:41 275
原创 Spark Streaming 接任意数据源作为 Stream
Spark Streaming 接任意数据源作为 Stream问题出发点工程中遇到流式处理的问题时,多采用Spark Streaming 或者 Storm 来处理;Strom采用Spout的流接入方式,Streaming采用Stream的流接入方式,为了方便本地测试,所以选择了spark streaming,但是官方仅支持如下几种方案,当遇到其他高吞吐数据量作为流时,就需要主角 Receiver 登场:实现关键类Receiver:Receiver是spark内部实现的一套机制..
2020-06-11 17:58:44 652
原创 Maven 打包踩坑之ClassNotFoundException 与 NoClassDefFoundError
Maven 打包踩坑之ClassNotFoundException 与 NoClassDefFoundError问题:spark streaming程序在本地运行正常,上传至服务器运行时出现如下错误:Caused by: java.lang.ClassNotFoundException: AAACaused by: java.lang.NoClassDefFoundError: AAACaused by: java.lang.reflect.InvocationTargetEx..
2020-06-10 15:25:29 10151
原创 Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar 解决方法
Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar 解决方法问题:导入spark依赖包后,local模式下运行spark本地程序报错:Caused by: java.lang.IllegalStateException: Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar on the class path,preempting StackOverflowErro.
2020-06-09 20:10:39 2486
原创 java.lang.NoSuchMethodError 之 依赖冲突解决方案
NoSuchMethodError 解决方案大全问题:本机测试环境运行无误,在服务器和别的jar包一起打包在一起运行报错,这种大概率为依赖冲突问题java.lang.NoSuchMethodError:com.google.protobuf.CodedInputStream.readStringRequireUtf8()Ljava/lang/String第一层:--> calass类名写错了解决方案:修改一下submit submit脚本的类名第二层:...
2020-06-05 15:27:17 10259 2
原创 io.netty | ERROR org.apache.spark.network.client.TransportClient - Failed to send RPC
问题:使用Spark时 RDD的map,foreach等操作正常,执行collect到本地时报错,本地文件大小约为5m。解决:在博客上查报错信息有如下解释:1.dirver端内存不足,spark强制关闭了任务,这里本地文件为5m,排除内存不足问题2.spark core version 与 io.netty 的版本不一致造成冲突于是怀疑是netty版本不对应,寻找其他工程中的External Libraris发现netty版本偏高(图中红线部分),在pom中加入新的netty依赖,异
2020-06-04 11:05:11 1198
Scala areOnJava8() 代码形式
2022-07-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人