- 博客(5)
- 资源 (3)
- 收藏
- 关注
原创 kafka-cdh5.11环境中集成部署kafka
1.准备cdh集群搭建成功,且部署好zookeeper.因为kafka在CDH上要求用CDH上的Zookeeper管理而不是Kafka自带的Zookeeper管理。集群:cdh01 192.168.50.248cdh02 192.168.50.249cdh03 192.168.50.247不同版本的cdh支持不同版本的kafka.根据官方的文档:能够安装的ka...
2019-03-25 17:10:06 1006 2
转载 hadoop-Hadoop 2.x与3.x 22点比较:3.x将节省大量存储空间
Hadoop 2.x与3.x 22点比较:3.x将节省大量存储空间问题导读1.Hadoop3.x通过什么方式来容错?2.Hadoop3.x存储开销减少了多少?3.Hadoop3.x MR API是否兼容hadoop1.x?一、目的在这篇文章中,我们将讨论Hadoop 2.x与Hadoop 3.x之间的比较。 Hadoop3版本中添加了哪些新功能,Hadoop3中兼容的Ha...
2019-03-22 16:33:34 449
转载 Spark-Spark函数详解RDD转换与操作
1.RDD简介RDD:弹性分布式数据集,是一种特殊集合‚ 支持多种来源‚ 有容错机制‚ 可以被缓存‚ 支持并行操作,一个RDD代表一个分区里的数据集。RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作; At...
2019-03-06 16:03:00 840
转载 Spark-combineByKey
1.前言combineByKey是使用Spark无法避免的一个方法,总会在有意或无意,直接或间接的调用到它。从它的字面上就可以知道,它有聚合的作用,对于这点不想做过多的解释,原因很简单,因为reduceByKey、aggregateByKey、foldByKey等函数都是使用它来实现的。combineByKey是一个高度抽象的聚合函数,可以用于数据的聚合和分组,由它牵出的shuffle也是...
2019-03-06 11:25:45 317
转载 Scala-case match语法使用
scala中的case语法与java中的switch语法类似,但比switch更强大:例子一 正则匹配:val Pattern="(s.*)".r val v1="spark"; val r=v1 match { case Pattern(v1)=> "begin s*" case "1"=> "1" case
2019-03-04 15:19:41 824
kettle执行hive相关ktr时报错: database type with plugin id [HIVE2] couldn't be found!
2019-04-02
spark经过maven编译后的spark-assembly包
2019-01-02
linux环境下部署kettle,执行kitchen.sh文件报错后提示安装 libwebkitgtk 所需rpm包
2018-11-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人