HBase数仓架构

HBase数仓架构 1.整体架构 选型主要有两个,第一个是实时,实时采集利用 Maxwell,直接采集公司数据库 MySQL,将数据直接以 json 格式发送到 Kafka 集群,数仓存储选型是 HBase。 上图是实时数仓架构图,主要的存储层还是以 HBase 为主。第一层业务系统数据库在My...

2019-07-23 09:36:28

阅读数 3322

评论数 1

数仓初步构建

数仓初步构建 数仓构建主要就是基于主题库的数据建立对应的专题库以供对应专题服务。 速成策略: 1.首先了解数仓相关知识 2.了解事实表与维度表的建立与实施, 3.找出业务需求然后寻找对应的解决方案。 4.后期开发顺利推进。 1.数仓 1.1首先先讲一下数仓的概念,先上个图,由图看的更加直观。 数...

2019-07-17 11:50:47

阅读数 35

评论数 0

Kafka为什么速度快、吞吐量大

Kafka为什么速度快、吞吐量大 Kafka是大数据领域无处不在的消息中间件,目前广泛使用在企业内部的实时数据管道,并帮助企业构建自己的流计算应用程序。Kafka虽然是基于磁盘做的数据存储,但却具有高性能、高吞吐、低延时的特点,其吞吐量动辄几万、几十上百万。但是很多使用过Kafka的人,经常会被问...

2019-07-08 17:16:41

阅读数 49

评论数 0

Spark Streaming反压机制初探

Spark Streaming反压机制初探 1.反压机制原理 Spark Streaming中的反压机制是Spark 1.5.0推出的新特性,可以根据处理效率动态调整摄入速率。 当批处理时间(Batch Processing Time)大于批次间隔(Batch Interval,即 BatchDu...

2019-06-25 17:06:00

阅读数 66

评论数 0

HBase Rowkey设计规范

HBase Rowkey设计规范 1.Rowkey是什么 可以理解为关系型数据库MySQL Oracle的主键,用于标识唯一的行。 完全是由用户指定的一串不重复的字符串。 HBase中的数据永远是根据Rowkey的字典排序来排序的。 2.Rowkey的作用 读写数据时 通过 RowKey 找...

2019-06-24 18:06:25

阅读数 62

评论数 0

Spark中Cache跟Persist的初探

Spark中Cache跟Persist的初探 1.Cache的产生背景 我们先做一个简单的测试读取一个本地文件做一次collect操作: val rdd=sc.textFile("file:///home/hadoop/data/input.txt")val rdd=sc.te...

2019-06-17 09:47:21

阅读数 53

评论数 0

Spark内存管理再探

Spark内存管理再探 之前写过一篇Spark on yarn的内存管理分配,初探,这次再来深入了解它更加底层的一些东西,之前博客的连接 Spark on yarn 内存管理分配初探 1. 静态内存管理 1.1存储内存分配 通过代码可以看出,存储空间可用内存 = 运行时最大内存 x 分配给存储空...

2019-06-14 15:40:53

阅读数 30

评论数 0

Kafka数据可靠性及一致性的机制初探

Kafka数据可靠性及一致性的机制初探 Apache Kafka是大数据项目中使用较多的一个消息中间件,是分布式消息订阅系统,有非常好的横向扩展性,可实时存储海量数据,并且Kafka的数据可靠新以及一致性做的非常好,本文是对Kafka的数据可靠性及一致性的机制做了一个初步的探究. 1.数据可靠性 ...

2019-06-12 16:33:45

阅读数 62

评论数 0

Spark-Core(MapPartitions内存优化)

Spark-Core(MapPartitions/内存优化) 1.map map是对RDD中的每个一元素作用一个函数或者是算子,简单理解就是对每个元素进行一个f(x)的操作 Return a new RDD by applying a function to all elements of th...

2019-06-05 00:39:53

阅读数 46

评论数 0

Spark-Core(共享变量)

Spark-Core(共享变量) 1.Shared Variables ​ 当在远程集群节点上执行传递给Spark操作(例如map或reduce)的函数时,它将在函数中使用的所有变量的单独副本上工作。这些变量将复制到每台计算机,并且远程计算机上的变量的更新不会传播回驱动程序。支持跨任务的通用,...

2019-06-05 00:39:17

阅读数 36

评论数 0

Spark on Yarn

Spark on Yarn 1.Yarn的产生背景 Hadoop Spark Standalone MPI …等分布式的框架 集群的资源利用率不够,就需要统一的资源管理和调度。 使用Yarn的话,多种计算框架可以共享集群资源,按需分配,这样可以提升集群资源的利用率。 2.Yarn架构 各自的职责以...

2019-06-05 00:37:06

阅读数 53

评论数 0

Spark 监控

Spark 监控 ###1.Spark官网的Monitor 地址:http://spark.apache.org/docs/2.2.0/monitoring.html 1.1 WEB UI 应用程序停止之后没有办法通过ui界面查看,要在事后查看Web UI,请在启动应用程序之前将spark.eve...

2019-06-05 00:36:44

阅读数 46

评论数 0

Scala扩展

Scala扩展 1.伴生 Object内部的方法,我们可以直接通过Object.method,需要使用哪个方法就用哪个,类似于java里的static。 package scala object Timer { var count = 0 def increment():Long =...

2019-06-05 00:36:22

阅读数 18

评论数 0

ElasticSearch单机部署及其插件

##ElasticSearch单机部署及其插件 1.介绍 Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。作为 Elastic Stack 的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。 ###2.安装 1....

2019-06-04 14:54:36

阅读数 28

评论数 0

MySQL离线部署

MySQL离线部署 #安装的版本是MySQL5.7.11版本 #1.解压及创建目录 [root@hadoop001 local] tar -xzvf mysql-5.7.11-linux-glibc2.5-x86_64.tar.gz -C /usr/local [root@hadoop001 lo...

2019-05-29 17:37:20

阅读数 39

评论数 0

Maxwell的使用初探

Maxwell的使用初探 1.简介 说到大数据的实时数据源同步中间件就不得不说Maxwell,同时还有Canal,Canal是阿里的中间件组件,Maxwell是国外开源的组件. Canal地址:https://github.com/alibaba/canal Maxwell地址:https://g...

2019-05-29 17:28:03

阅读数 108

评论数 0

CDH安装phoenix

CDH安装phoenix 1.背景 ​ base 提供很方便的shell脚本以及java API等方式对Hbase进行操作,但是对于很对已经习惯了关系型数据库操作的开发来说,有一定的学习成本,如果可以像操作mysql等一样通过sql实现对Hbase的操作,那么很大程度降低了Hbase的使用成本...

2019-05-29 11:33:28

阅读数 34

评论数 0

IDEA本地Spark开发读取云主机Hive异常剖析

IDEA本地Spark操作云主机Hive异常剖析 1.问题背景 1.Hive是搭建在云主机上的伪分布式 ​ 公网 IP:47.101.xxx.xxx ​ 内网 IP:172.19.35.154 ​ 主机名:hadoop001 2.Spark开发在本地的IDEA开发 ​ 本地的的hive-site....

2019-05-27 17:35:49

阅读数 44

评论数 0

Spark on yarn 内存管理分配初探

Spark on yarn 内存管理分配初探 简介: 按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行。S...

2019-05-23 14:31:19

阅读数 77

评论数 0

CDH5.16.1的离线部署

CDH5.16.1的离线部署 CDH部署的机器是三台阿里云机器,配置都是2cpu,8G内存,40G硬盘 安装需要的软件包: 1.CDH-5.16.1-1.cdh5.16.1.p0.3-el7.parcel(CDH软件包) 2.CDH-5.16.1-1.cdh5.16.1.p0.3-el7.par...

2019-05-22 15:29:46

阅读数 101

评论数 0

提示
确定要删除当前文章?
取消 删除