![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
及未来
这个作者很懒,什么都没留下…
展开
-
大数据面试题整理汇总(持续更新ING)
目录Spark1. 对于Spark存在的数据倾斜问题你有什么好的解决方法吗?2. 简述你所理解的 Spark 的 shuffle 过程3. Spark中的算子分为哪两类?Spark1. 对于Spark存在的数据倾斜问题你有什么好的解决方法吗?调整并行度分散Key(一般是增大并行度)自定义Partitioner(默认HashPartitioner)处理Key,如增加随机的前缀2. 简...原创 2020-04-06 22:50:40 · 678 阅读 · 0 评论 -
通过Spark的UDAF看各类大数据组件原理
通过Spark的UDAF看各类大数据组件大数据处理的原理Spark UDAF(用户自定义聚合函数)一点感想 在IT界,每一项技术的兴起往往是因为这项技术解决了某项痛点。C语言作为高级语言兴起,很大程度是因为降低了编程难度(对比汇编语言)。数据库的兴起是因为解决了重要数据的存储问题。以Hadoop为首的大数据组件的兴起,就是为了应对爆炸增长的数据量。大数据处理的原理 Ha...原创 2020-03-29 23:17:09 · 314 阅读 · 0 评论 -
招聘岗位上到处都要求熟练的Hive究竟是何方神圣?
目录简介数据结构数据模型简介Hive是基于Hadoop的数据仓库大数据组件。将易上手的SQL语句转化的MapReduce作业。数据结构元数据Hive存储的是一张张的数据表,而元数据就是其中的表结构;存储形式:存于Derby数据库,或MySQL,Oracle数据库。表数据表中存储的数据。存储形式:每张表存于HDFS中的一个目录中;数据模型内部表最接近普通关系型数...原创 2020-03-27 00:17:47 · 440 阅读 · 0 评论 -
Flume入门
目录Flume简介个人理解Flume核心组件Flume简介Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible arch...原创 2019-12-31 10:51:37 · 146 阅读 · 0 评论 -
【大数据进击】如何设置spark.kryoserializer.buffer.max value
如何设置spark.kryoserializer.buffer.max value在运行Spark计算任务时,出现了Buffer Overflow错误,Kryo序列化在序列化对象时缓存爆了。反复设置了几次,终于发现了自己的错误,分享出来,希望大家能避坑。设置Kryo为序列化类//设置Kryo为序列化类(默认为Java序列类)sparkConf.set("spark.serialize...原创 2019-08-01 00:10:20 · 10086 阅读 · 1 评论 -
Spark名词解释
Spark的相关名词有时候学着学着会弄混,就趁着这次自己总结一次,也许不是很好,但不能因此就放弃不写;Driver提交Spark Application(应用)的机器。有些算子操作也需要对Driver端操作,如使用collect, show等算子,需要汇集到Driver端,对Driver的计算性能,内存都有一定要求。Worker计算节点(机器),该机器用于计算Application代码。...原创 2019-07-06 23:36:48 · 456 阅读 · 1 评论 -
【转载】Spark原理详细解析
(当收藏吧)这个可谓是本人看到的最好最详细的Spark原理的文章了,详情点击此链接:http://www.raincent.com/content-85-11052-1.html转载 2019-04-11 17:06:07 · 155 阅读 · 0 评论 -
【错误处理】java.lang.NoSuchMethodError: scala.Predef$.refArrayOps
错误详情错误原因使用Spark时需要使用对应版本的Scala和Hadoop在使用maven查询依赖的时候也能看到:解决方法可在maven查询依赖中,查找Spark对应版本的Scala,重新下载即可。...原创 2019-03-13 16:49:03 · 2516 阅读 · 0 评论 -
KETTLE——EXCEL输入
KETTLE表输出使用KETTLE表输出KETTLE EXCEL输入功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入...原创 2019-01-23 20:42:37 · 5181 阅读 · 1 评论 -
Azkaban 2.5.0安装
前言: 前几天安装了第三方的大数据调度组件——Azkaban,这期间遇到了一些问题,想分享,总结一下,大家少走弯路 另外,如果安装报错,可参考这篇文章:https://blog.csdn.net/Jiweilai1/article/details/84671289思维导图: 下载与安装: 下载方式: ...原创 2018-11-28 22:42:03 · 245 阅读 · 0 评论 -
【Big Data】大数据组件学习
hadoop HDFS常用文件操作命令 https://segmentfault.com/a/1190000002672666#articleHeader10Spark基础知识学习分享 - 推酷 https://www.tuicool.com/articles/eq2meyfSpark RDD API详解(一) Map和Reduce - wisgood的专栏 - CSDN博客 ...转载 2018-11-21 15:58:48 · 1634 阅读 · 0 评论