![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
及未来
这个作者很懒,什么都没留下…
展开
-
大数据面试题整理汇总(持续更新ING)
目录Spark1. 对于Spark存在的数据倾斜问题你有什么好的解决方法吗?2. 简述你所理解的 Spark 的 shuffle 过程3. Spark中的算子分为哪两类?Spark1. 对于Spark存在的数据倾斜问题你有什么好的解决方法吗?调整并行度分散Key(一般是增大并行度)自定义Partitioner(默认HashPartitioner)处理Key,如增加随机的前缀2. 简...原创 2020-04-06 22:50:40 · 678 阅读 · 0 评论 -
通过Spark的UDAF看各类大数据组件原理
通过Spark的UDAF看各类大数据组件大数据处理的原理Spark UDAF(用户自定义聚合函数)一点感想 在IT界,每一项技术的兴起往往是因为这项技术解决了某项痛点。C语言作为高级语言兴起,很大程度是因为降低了编程难度(对比汇编语言)。数据库的兴起是因为解决了重要数据的存储问题。以Hadoop为首的大数据组件的兴起,就是为了应对爆炸增长的数据量。大数据处理的原理 Ha...原创 2020-03-29 23:17:09 · 314 阅读 · 0 评论 -
【错误处理】Spark读取数据库 Numberic Overflow
目录1. 错误背景2. 错误详情3. 解决方案4. 不知道如何总结1. 错误背景前些天,Spark读取Oracle数据库时发生这个报错。Numberic Overflow,一般来说就是拿来装数字的字段类型装不下了。比如你用 Int类型来装 Long类型的大数字。一般这种问题,将字段类型增大即可,但几经尝试,发现结果并不是如此,不过怎么加大Spark中对应的字段类型,都无济于事。2. 错误详情...原创 2020-01-19 23:09:17 · 443 阅读 · 0 评论 -
【Big Data】大数据组件学习
hadoop HDFS常用文件操作命令 https://segmentfault.com/a/1190000002672666#articleHeader10Spark基础知识学习分享 - 推酷 https://www.tuicool.com/articles/eq2meyfSpark RDD API详解(一) Map和Reduce - wisgood的专栏 - CSDN博客 ...转载 2018-11-21 15:58:48 · 1634 阅读 · 0 评论 -
【错误处理】java.lang.NoSuchMethodError: scala.Predef$.refArrayOps
错误详情错误原因使用Spark时需要使用对应版本的Scala和Hadoop在使用maven查询依赖的时候也能看到:解决方法可在maven查询依赖中,查找Spark对应版本的Scala,重新下载即可。...原创 2019-03-13 16:49:03 · 2516 阅读 · 0 评论 -
Spark名词解释
Spark的相关名词有时候学着学着会弄混,就趁着这次自己总结一次,也许不是很好,但不能因此就放弃不写;Driver提交Spark Application(应用)的机器。有些算子操作也需要对Driver端操作,如使用collect, show等算子,需要汇集到Driver端,对Driver的计算性能,内存都有一定要求。Worker计算节点(机器),该机器用于计算Application代码。...原创 2019-07-06 23:36:48 · 456 阅读 · 1 评论 -
【大数据进击】如何设置spark.kryoserializer.buffer.max value
如何设置spark.kryoserializer.buffer.max value在运行Spark计算任务时,出现了Buffer Overflow错误,Kryo序列化在序列化对象时缓存爆了。反复设置了几次,终于发现了自己的错误,分享出来,希望大家能避坑。设置Kryo为序列化类//设置Kryo为序列化类(默认为Java序列类)sparkConf.set("spark.serialize...原创 2019-08-01 00:10:20 · 10086 阅读 · 1 评论