大数据
文章平均质量分 53
OnlyCoding…
这个作者很懒,什么都没留下…
展开
-
细谈Hadoop生态圈
Hadoop生态系统 01Hadoop在过去的几年里已经变得很成熟了。下面的图1-2显示了Hadoop生态系统堆栈。Apache Phoenix是HBase的SQL包装,它需要...原创 2020-06-05 07:45:39 · 1162 阅读 · 0 评论 -
大数据平台 CDH 6.2 搭建
点击 “蓝字” 关注我们https://archive.cloudera.com/cm6/6.2.0/redhat7/yum/RPMS/x86_64/CDH6.2.0安装包地址:htt...原创 2020-06-04 21:00:34 · 1386 阅读 · 0 评论 -
Cube构建优化
点击 “蓝字” 关注我们找到问题Cube检查Cuboid数量检查Cube大小优化构建使用聚合组并发粒度优化Cube构建优化从之前章节的介绍可以知...原创 2020-03-04 22:42:38 · 249 阅读 · 0 评论 -
初识Druid
点击 “蓝字” 关注我们什么是Druid?Druid的三个设计原则?快速查询(Fast Query)水平扩展能力(Horizontal ...原创 2020-02-28 13:49:16 · 172 阅读 · 0 评论 -
项目实战中Hive注释乱码解决方案
下面这些都是我在工作中总结出来的,希望对大家有帮助,如果有其他的问题或者解决方法可以留言给我。我们知道hive的元数据是有mysql管理的,所以这是mysql的元数据的问题.下⾯面我们就...原创 2020-04-06 15:51:59 · 135 阅读 · 0 评论 -
Zookeeper 介绍与内部原理
点击 “蓝字” 关注我们Zookeeper入门概述特点数据结构应用场景Zookeeper...原创 2020-02-26 23:56:20 · 127 阅读 · 0 评论 -
Elasticsearch 加班不睡觉(一)
点击 “蓝字” 关注我们多余话不多说,直接上问题:1. 业务代码实现结果和kibana验证不一致?在实际MySQL业务中,一般会先验证sql有没有问题,如果没有问题,再写业务代码。实际...原创 2020-04-08 18:41:25 · 124 阅读 · 0 评论 -
kylin—分布式的分析型数据仓库
点击 “蓝字” 关注我们Kylin定义Kylin特点Kylin架构Kylin工作原理维度和度量Cube和Cuboid核心算法...原创 2020-03-04 22:42:38 · 383 阅读 · 0 评论 -
Flink Windows窗口简介和使用
很多人不知道什么是Window?有哪些用途?下面我们结合一个现实的例子来说明。我们先提出一个问题:统计经过某红绿灯的汽车数量之和?假设在一个红绿灯处,我们每隔15秒统计一次通过此红绿...原创 2020-04-06 15:51:59 · 666 阅读 · 1 评论 -
HBase 内部探索之旅
点击 “蓝字” 关注我们Region Server 详细架构StoreFile:存储有序的K-V的文件,存储在HDFS上。MemStore:写缓存,K-V在MemStore中进行排序,...原创 2020-02-23 13:33:55 · 138 阅读 · 0 评论 -
大数据技术——Azkaban(阿兹卡班)
Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系。每个子任务相当于大任务中的一个节点,也就是,我们需要的就是一个工作流的调度器,而Azkaban就是能解决上述问题的一个调度器。根据以上业务场景: (2)任务依赖(1)任务的结果,(3)任务依赖(2)任务的结果,(4)任务依赖(3)任务的结果,(5)任务依赖(4)任务的结果。原创 2020-02-28 13:49:16 · 10703 阅读 · 0 评论 -
Flink SQL 实时计算UV指标
点击 “蓝字” 关注我们用一个接地气的案例来介绍如何实时计算 UV 数据。大家都知道,在 ToC 的互联网公司,UV 是一个很重要的指标,对于老板、商务、运营的及时决策会产生很大的影响...原创 2020-06-02 14:38:27 · 5961 阅读 · 2 评论 -
Flink checkpoint原理解析
请谈谈flink的checkpoint机制,checkpoint时,会否影响正常的数据处理Checkpoint 与 state 的关系Checkpoint 是从 source 触发到下游所有节点完成的一次全局操作。下图可以有一个对 Checkpoint 的直观感受,红框里面可以看到一共触发了 569K 次 Checkpoint,然后全部都成功完成,没有 fail 的。state 其实就是 ...原创 2020-04-18 15:26:00 · 683 阅读 · 1 评论 -
Hadoop 压缩参数配置
要在 Hadoop 中启用压缩,可以配置如下参数(mapred-site.xml 文件中):原创 2020-02-14 09:52:56 · 229 阅读 · 0 评论 -
Hadoop源码编译支持Snappy压缩
Hadoop源码编译支持Snappy压缩资源准备1)CentOS 联网配置 CentOS 能连接外网。Linux 虚拟机 ping www.baidu.com 是畅通的注意:采用 root 角色编译,减少文件夹权限出现问题2)jar 包准备(hadoop 源码、JDK8 、maven、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-8u144-li...原创 2020-02-14 09:35:26 · 166 阅读 · 0 评论