2019年03月_lisery_nj

03月 02月 01月

原创 kafka-cdh5.11环境中集成部署kafka

1.准备cdh集群搭建成功，且部署好zookeeper.因为kafka在CDH上要求用CDH上的Zookeeper管理而不是Kafka自带的Zookeeper管理。集群：cdh01 192.168.50.248cdh02 192.168.50.249cdh03 192.168.50.247不同版本的cdh支持不同版本的kafka.根据官方的文档：能够安装的ka...

2019-03-25 17:10:06 1006 2

转载 hadoop-Hadoop 2.x与3.x 22点比较：3.x将节省大量存储空间

Hadoop 2.x与3.x 22点比较：3.x将节省大量存储空间问题导读1.Hadoop3.x通过什么方式来容错？2.Hadoop3.x存储开销减少了多少？3.Hadoop3.x MR API是否兼容hadoop1.x？一、目的在这篇文章中，我们将讨论Hadoop 2.x与Hadoop 3.x之间的比较。 Hadoop3版本中添加了哪些新功能，Hadoop3中兼容的Ha...

2019-03-22 16:33:34 449

转载 Spark-Spark函数详解RDD转换与操作

1.RDD简介RDD：弹性分布式数据集，是一种特殊集合‚ 支持多种来源‚ 有容错机制‚ 可以被缓存‚ 支持并行操作，一个RDD代表一个分区里的数据集。RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作； At...

2019-03-06 16:03:00 840

转载 Spark-combineByKey

1.前言combineByKey是使用Spark无法避免的一个方法，总会在有意或无意，直接或间接的调用到它。从它的字面上就可以知道，它有聚合的作用，对于这点不想做过多的解释，原因很简单，因为reduceByKey、aggregateByKey、foldByKey等函数都是使用它来实现的。combineByKey是一个高度抽象的聚合函数，可以用于数据的聚合和分组，由它牵出的shuffle也是...

2019-03-06 11:25:45 317

转载 Scala-case match语法使用

scala中的case语法与java中的switch语法类似，但比switch更强大：例子一正则匹配：val Pattern="(s.*)".r val v1="spark"; val r=v1 match { case Pattern(v1)=> "begin s*" case "1"=> "1" case

2019-03-04 15:19:41 824

kettle执行hive相关ktr时报错： database type with plugin id [HIVE2] couldn't be found!

java代码执行hive相关ktr时报错： database type with plugin id [HIVE2] couldn't be found! 解决：kettle-core-7.1.0.0-12.jar适配hive后的包。具体步骤请查看https://blog.csdn.net/m0_37618809/article/details/81632342

2019-04-02

spark经过maven编译后的spark-assembly包

cdh环境中的spark不支持sparksql,现必须用到sparksql编译spark源码获取spark-assembly包替换即可完成

2019-01-02

linux环境下部署kettle，执行kitchen.sh文件报错后提示安装 libwebkitgtk 所需rpm包

kettle-linux环境下部署kettle，执行kitchen.sh文件报错后安装 libwebkitgtk，提示没有可用软件包libwebkitgtk 详细流程：https://blog.csdn.net/m0_37618809/article/details/81015492#commentBox

2018-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人