自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BITDDD小栈

LLM、推荐算法工程师,日常使用 Spark、Flink、Python 以及其他大数据相关

  • 博客(7)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 Spark缓存 之 Collect Cache Persist

Spark 之 Collect Cache Persist三者都有汇聚数据,拉取数据存储的作用,mark一下各自的作用。Collect: /** * Return an array that contains all of the elements in this RDD. * * @note This method should only be used if the resulting array is expected to be small, as * .

2020-06-29 20:13:49 903

原创 Scala 实现Python Arange

使用scala时有arange的需求,但是没有找到相对应函数,只找到了group,sliding函数,于是自己实现一个:目标:给定起点,终点和份数,得到arange结果实现:计算起始点长度与分类数,得到每一步的Step,然后循环添加即可。这里还加了隐式转换是为了函数传参类型转换。 private implicit def doubleToFloat(number: Double): Float ={ number.toFloat } private de..

2020-06-19 17:08:41 275

原创 Spark Streaming 接任意数据源作为 Stream

Spark Streaming 接任意数据源作为 Stream问题出发点工程中遇到流式处理的问题时,多采用Spark Streaming 或者 Storm 来处理;Strom采用Spout的流接入方式,Streaming采用Stream的流接入方式,为了方便本地测试,所以选择了spark streaming,但是官方仅支持如下几种方案,当遇到其他高吞吐数据量作为流时,就需要主角 Receiver 登场:实现关键类Receiver:Receiver是spark内部实现的一套机制..

2020-06-11 17:58:44 652

原创 Maven 打包踩坑之ClassNotFoundException 与 NoClassDefFoundError

Maven 打包踩坑之ClassNotFoundException 与 NoClassDefFoundError问题:spark streaming程序在本地运行正常,上传至服务器运行时出现如下错误:Caused by: java.lang.ClassNotFoundException: AAACaused by: java.lang.NoClassDefFoundError: AAACaused by: java.lang.reflect.InvocationTargetEx..

2020-06-10 15:25:29 10151

原创 Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar 解决方法

Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar 解决方法问题:导入spark依赖包后,local模式下运行spark本地程序报错:Caused by: java.lang.IllegalStateException: Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar on the class path,preempting StackOverflowErro.

2020-06-09 20:10:39 2486

原创 java.lang.NoSuchMethodError 之 依赖冲突解决方案

NoSuchMethodError 解决方案大全问题:本机测试环境运行无误,在服务器和别的jar包一起打包在一起运行报错,这种大概率为依赖冲突问题java.lang.NoSuchMethodError:com.google.protobuf.CodedInputStream.readStringRequireUtf8()Ljava/lang/String第一层:--> calass类名写错了解决方案:修改一下submit submit脚本的类名第二层:...

2020-06-05 15:27:17 10259 2

原创 io.netty | ERROR org.apache.spark.network.client.TransportClient - Failed to send RPC

问题:使用Spark时 RDD的map,foreach等操作正常,执行collect到本地时报错,本地文件大小约为5m。解决:在博客上查报错信息有如下解释:1.dirver端内存不足,spark强制关闭了任务,这里本地文件为5m,排除内存不足问题2.spark core version 与 io.netty 的版本不一致造成冲突于是怀疑是netty版本不对应,寻找其他工程中的External Libraris发现netty版本偏高(图中红线部分),在pom中加入新的netty依赖,异

2020-06-04 11:05:11 1198

TED Topic For Different Context

TED Topic For Different Context

2024-06-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除