![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据生态圈
文章平均质量分 62
小黄鸭and小黑鸭
小黄鸭的快乐生活 嘻嘻(●'◡'●)
展开
-
kylin Build Dimension Dictionary异常
kylin Build Dimension Dictionary异常处理--FileNotFoundException:/kylin_metadata/resources/dict/tb_name/***.dict异常原因解决方法异常Caused by: java.io.FileNotFoundException:/kylin_metadata/resources/dict/tb_name/***.dict原因 原因是kylin在创建维度字典的时候有一个bug,正常创建字典或者快照的时候会进行两个原创 2020-08-28 16:34:19 · 802 阅读 · 0 评论 -
Dubbo配置
<!--dubbo--><dependency> <groupId>com.alibaba.boot</groupId> <artifactId>dubbo-spring-boot-starter</artifactId>原创 2018-09-05 09:50:02 · 181 阅读 · 0 评论 -
dubbo和zookeeper
Dubbo建议使用Zookeeper作为服务的注册中心。Zookeeper的作用:zookeeper用来注册服务和进行负载均衡,哪一个服务由哪一个机器来提供必需让调用者知道,简单来说就是ip地址和服务名称的对应关系。当然也可以 通过硬编码的方式把这种对应关系在调用方业务代码中实现,但是如果提供服务的机器挂掉调用者无法知晓,如果不更改代码会继续请求挂掉的机器提供服务。 zookeeper通...原创 2018-09-05 09:49:52 · 247 阅读 · 0 评论 -
spark简介
学习教程:https://www.cnblogs.com/qingyunzong/category/1202252.htmlhttps://www.cnblogs.com/wonglu/p/5901356.htmlhttp://spark.apache.org/docs/latest/quick-start.html1、什么是spark目前按照大数据处理类型来分大致可以分为...原创 2018-09-03 19:05:57 · 258 阅读 · 0 评论 -
Spark SQL
教程:http://spark.apache.org/docs/latest/sql-programming-guide.htmlSpark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。Spark SQL的一个用途是执行SQL查询。Spark SQL还可用于从现有H...原创 2018-09-03 19:20:20 · 795 阅读 · 0 评论 -
Spark数据源
教程:http://spark.apache.org/docs/latest/sql-programming-guide.html#hive-metastore-parquet-table-conversion多种类型数据源加载和保存 // $example on:generic_load_save_functions$ Dataset<Row> users...原创 2018-09-03 19:20:45 · 817 阅读 · 0 评论 -
Spark Streaming
教程:http://spark.apache.org/docs/latest/streaming-programming-guide.htmlpom:https://search.maven.org/#search%7Cga%7C1%7Cg%3A%22org.apache.spark%22%20AND%20v%3A%222.3.1%22Spark Streaming是核心Spark...原创 2018-09-03 19:21:08 · 1454 阅读 · 1 评论 -
spark消费kafka消息
教程:http://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.htmlpom:<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</...原创 2018-09-03 19:21:36 · 1318 阅读 · 0 评论 -
checkpoint
设置checkpoint存储目录,从最新的checkpoint恢复:JavaStreamingContext ssc = JavaStreamingContext.getOrCreate(checkpointDirectory, ()-> createContext(ip,port,outputPath,checkpointDirectory));...原创 2018-09-03 19:22:03 · 361 阅读 · 0 评论 -
zookeeper-curator
Curator教程:https://www.jianshu.com/p/70151fc0ef5dCurator包含了几个包:curator-framework:对zookeeper的底层api的一些封装curator-client:提供一些客户端的操作,例如重试策略等curator-recipes:封装了一些高级特性,如:Cache事件监听、选举、分布式锁、分布式计数器、分布式B...原创 2018-09-05 09:50:11 · 228 阅读 · 0 评论 -
zookeeper节点操作zkclient
增加、删除节点,监测节点信息的变化,解析jsonpackage com.keixn.inspect.controller;/** * @Author KeXin * @Date 2018/7/19 下午3:36 **/import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import...原创 2018-09-05 09:50:19 · 572 阅读 · 0 评论 -
zookeeper简介
zookeep搭建教程:http://www.cnblogs.com/EasonJim/p/7482961.htmlzk装在/usr/local/zk可以在bin目录下启动或关闭ZooKeeper是什么ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一...原创 2018-09-04 19:04:54 · 497 阅读 · 0 评论 -
spark+kafka+hive
使用spark streaming消费kafka消息,并通过hql同步到hive中用到的pom: <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.sp...原创 2018-09-04 18:17:01 · 4011 阅读 · 0 评论 -
kafka基本的消息生产与消费
分布式的一个消息系统,生产者-broker-消费者分布式每个分区都由一个服务器作为“leader”,零或若干服务器作为“followers”,leader负责处理消息的读和写,followers则去复制leader.如果leader down了,followers中的一台则会自动成为leader。集群中的每个服务都会同时扮演两个角色:作为它所持有的一部分分区的leader,同时作为其他...原创 2018-09-04 18:19:04 · 3145 阅读 · 0 评论 -
Hadoop简介
Hadoop的架构在其核心,Hadoop主要有两个层次,即:加工/计算层(MapReduce)存储层(Hadoop分布式文件系统)除了上面提到的两个核心组件,Hadoop的框架还包括以下两个模块:Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具Hadoop YARN :这是作业调度和集群资源管理的框架Hadoop Streaming 是一个实用程...原创 2018-09-04 18:20:00 · 8633 阅读 · 0 评论 -
Hadoop YARN
基本思想教程: https://mp.weixin.qq.com/s/JEw7qCze2vlt9ys_Fe7cFAYARN(Yet Another Resource Negotiator)是一个分布式资源管理框架,基本思想是将资源管理和作业调度/监视的功能分解为单独的守护进程。一个全局ResourceManager(RM)和每个应用程序ApplicationMaster(AM),应用程序...原创 2018-09-04 18:21:13 · 259 阅读 · 0 评论 -
kudu
kudukudu:面向结构化数据的开源的table存储引擎,支持低延迟的随机存取以及高效的分析处理Kudu管理的是类似关系型数据库的结构化的表,表结构由类Sql的Schema进行定义,相比于HBase这样的NoSql类型的数据库,Kudu的行数据是由固定个数有明确类型定义的列组成,并且需要定义一个由一个或多个列组成的主键来对每行数据进行唯一索引,相比于传统的关系型数据库,kudu在索引上有...原创 2018-09-04 19:02:20 · 1380 阅读 · 0 评论 -
kuduClient实现增删改查
使用kuduClient创建表; 使用kuduClient添加数据; 使用kuduClient更新数据; 使用kuduClient查询数据; 使用kuduClient删除表;使用kuduclient删除表数据;使用kuduclient条件查询;package com.kexin.kudu;import org.apache.kudu.ColumnSchema;imp...原创 2018-09-04 19:03:01 · 9529 阅读 · 0 评论 -
Hive和HBase的区别
Hive和HBase的区别一、两者分别是什么:Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询–因为它只能够在Haoop上批量的执行Hadoop。Apache HBase是一...原创 2018-09-04 19:03:28 · 576 阅读 · 0 评论 -
impala、hive 操作hbase
impala、hive 操作hbase数据存储在HBase中,使用Hive执行SQL语句无论是使用Hive还是Impala还是Spark,第一步都是让他们先知道数据的表结构。 Hive的内置数据类型可以分为两大类: (1)、基础数据类型; (2)、复杂数据类型; 其中,基础数据类型包括:TINYINT、SMALLINT、INT、BIGINT、BOOLEAN、FLOAT、DOU...原创 2018-09-04 19:04:01 · 1417 阅读 · 0 评论 -
canal+kafka实践——实时etl
canal解析sql数据库的binlog并格式化数据,然后同步到kafka消息,可以用来实现实时etlyml:spring: application: name: canal canal: topic-prefix: etl_timely. destination: example: 0 username: password:...原创 2018-09-04 18:15:10 · 12874 阅读 · 1 评论