Spark
文章平均质量分 79
Spark
澜的大数据
这个作者很懒,什么都没留下…
展开
-
Spark算子
1.RDD方法=>RDD算子1).转换:功能的补充和封装,将旧的RDD包装成新的RDD(map,flatMap)2).行动:触发任务的调度和作业的执行(collect)3).RDD方法=>RDD算子:认知心理学认为解决问题其实将问题的状态进行改变:问题(初始)=》操作(算子)=》问题(审核中)=》操作(算子) =》问题(完成)2.RDD转换算子1) map(RDD_Operator_Transform) rdd =sc.makeRDD(List(1,2,3,4)) val ma原创 2022-05-24 00:08:38 · 547 阅读 · 0 评论 -
spark连接mysql时出现The server time zone value ‘�й���ʱ��‘ is unrecognized or represents more than one ti
原因:是因为 mysql返回的时间总是有问题,比实际时间要早8小时解决方案: 在连接字符串后面加上?serverTimezone=UTC即可解决问题,如果需要使用gmt+8时区,需要写成GMT%2B8,否则可能报解析为空的错误jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=UTF-8&serverTimezone=UTC//这个是解决中文乱码输入问题useUnicode=true&char原创 2022-05-27 19:17:36 · 206 阅读 · 0 评论 -
spark集群部署(避坑版)
本地模式:测试web页面独立部署模式(standlone):web页面原创 2022-05-18 17:37:03 · 803 阅读 · 0 评论 -
Spark序列化和 RDD 依赖关系、持久化
Spark序列化1 闭包检查从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。那么在 scala 的函数式编程中,就会导致算子内经常会用到算子外的数据,这样就形成了闭包的效果,如果使用的算子外的数据无法序列化,就意味着无法传值给 Executor端执行,就会发生错误,所以需要在执行任务计算前,检测闭包内的对象是否可以进行序列化,这个操作我们称之为闭包检测。Scala2.12 版本后闭包编译方式发生了改变//RDD算子中传递的函数是会包含原创 2022-05-24 17:26:57 · 221 阅读 · 0 评论