spark
voidfaceless
这个作者很懒,什么都没留下…
展开
-
【Spark】Task not serializable
在spark开发过程中,可能都会遇到Task not serializable这样的错误,本文就这个问题提供几种解决方式。出现的原因spark处理的数据单元为RDD(即弹性分布式数据集),当我们要对RDD做诸如map,filter等操作的时候是在excutor上完成的。但是如果我们在driver中定义了一个变量,在map等操作中使用,则这个变量就要被分发到各个excutor,因为driver和...原创 2020-04-05 11:17:54 · 2373 阅读 · 0 评论 -
【scala】Maven发现依赖和扩展的远程仓库地址,解决不能发现依赖jar包的问题
下面是一些在新建scala-spark项目时,用于发现、导入依赖的jar包的远程仓库列表,可以直接复制到你的maven配置pom文件里。 <repositories> <repository> <id>central</id> <name>Maven central</name> ...原创 2020-03-10 18:52:31 · 586 阅读 · 0 评论 -
【Spark】Spark中dataframe不能filter多个条件的问题
今天在统计东西时,需要对sparksql.dataframe进行过滤,用到了filter函数,但是当需要过滤多个条件时,查阅网上说可以这样写:df.filter($"s"===1 || $"ss"=!=2)但是我在尝试的时候总是报错:Cannot resolve overload method ‘filter’我调了两个小时一直都不行,去查源码,spark源码也给出了这样的例子。后来才发...原创 2020-03-04 17:02:31 · 6747 阅读 · 0 评论 -
【Spark】Caused by: org.jets3t.service.ServiceException: Service Error Message. -- ResponseCode: 404
Caused by: org.jets3t.service.ServiceException: Service Error Message. – ResponseCode: 404, ResponseStatus: Not Found今天运行spark任务在调用sc.saveAsTextFile保存数据时出错:Caused by: org.jets3t.service.ServiceExcep...原创 2020-01-03 18:20:01 · 520 阅读 · 0 评论 -
【Spark】IDEA sbt编译出错unresolved dependency: com.eed3si9n#sbt-assembly;0.13.0: not found
IDEA sbt编译出错unresolved dependency: com.eed3si9n#sbt-assembly;0.13.0: not foundsbt编译的时候报错:unresolved dependency: com.eed3si9n#sbt-assembly;0.13.0: not found我这里的原因是sbt的版本对不上,找到project文件夹下的build.prop...原创 2020-01-02 10:00:27 · 1068 阅读 · 0 评论 -
【Spark】spark使用aggregateByKey替代groupByKey
spark使用aggregateByKey替代groupBeKey使用aggregateByKey需要确定下面三个参数:zeroValue :初始值seqOp : 对于key相同的元素的操作方法combOp : 对于key不同的元素的操作方法听起来很难懂,看个例子就明白了:val data=List((1,3),(1,2),(1,4),(2,3))val rdd=s...原创 2019-12-16 10:00:04 · 321 阅读 · 0 评论 -
spark-streaming越来越慢的bug
spark-streaming越来越慢的bug解决方案:step1:kafka参数配置为不自动提交偏移量:"enable.auto.commit" -> (false: java.lang.Boolean)step2:自己写代码维护偏移量打完收工。后续代码再更新...原创 2019-10-29 10:14:46 · 1148 阅读 · 0 评论 -
Spark未知问题—updateStateByKey的checkpoint引发的一系列问题
Spark未知问题—updateStateByKey的checkpoint引发的一系列问题楼主在应用spark-streaming时候,用到了updateStateByKey这个算子。updateStateByKey需要事先指定一个checkpoint地址,用于存储Metadata checkpointing和Data checkpointing。但是我在执行的时候,发现checkpoint文...原创 2019-10-14 20:10:54 · 424 阅读 · 0 评论 -
spark—map与flatmap的区别之用flatmap代替map.filter/filter.map组合
spark—用flatmap代替map.filter/filter.map组合spark RDD与DStream API支持很多好用的算子,最常用的莫过于map和filter了,顾名思义可知:map: 返回一个新的分布式数据集,其中每个元素都是由源RDD中一个元素经func转换得到的;filter: 返回一个新的数据集,其中包含的元素来自源RDD中元素经func过滤后(func返回true时...原创 2019-10-12 10:37:19 · 1073 阅读 · 0 评论 -
DStream.foreachRDD,window,batch的理解
DStream.foreachRDD,window,batch的理解Spark Streaming是用于处理流式数据的库。换句话说,流数据会依照一定的时间间隔分为批次,这个时间间隔叫做batch interval,每个批的数据都会处理转换为RDD,这些连续的RDD组成DStream。那么window又是啥?DStream怎么处理这些RDD呢。举一个简单的例子,假设batch interval...原创 2019-09-27 18:50:30 · 218 阅读 · 0 评论 -
Mac系统下查看和生成SSH Key
Mac系统下查看和生成SSH Key参考链接:https://www.jianshu.com/p/32b0f8f9ca8e一、打开vim(terminal.app)查看本地是否存在SSH-Keyls -al ~/.ssh如果vim输出的是如下内容:证明本地没有生成的SSH Key,请执行第二步。No such file or directory如果vim输出的是如下...原创 2019-07-18 09:41:39 · 125 阅读 · 0 评论