大数据
文章平均质量分 88
大数据学习
桓桓桓桓
这个作者很懒,什么都没留下…
展开
-
CDH搭建大数据集群(5.10.0)
目录一、CDH介绍 二、为什么选择CDH? 三、CDH的版本选择 四、安装准备 1.节点准备 2.节点规划 3.下载parcels文件 4.tarball下载 5.准备以下内容: 五、系统初始化 1.关闭防火墙(3个节点) 2.配置主机名(3个节点) 3.修改hosts文件(3个节点) 4.配置免密登录(3个节点) 5.安装JDK(3个节点) 6.检查Python版本(3个节点) 7.检查服务器之间的时间是否同步(3个节点) 六、安装my转载 2021-07-03 14:19:10 · 1184 阅读 · 0 评论 -
Flink基于EventTime和WaterMark处理乱序事件和晚到的数据
在实际的业务中,我们经常会遇到数据迟到的情况,这个时候基于窗口进行计算的结果就不对了,Flink中watermark就是为了解决这个问题的,理解watermark之前,先来说一下flink中的三个与流数据相关的概念,ProcessTime、EventTime、IngestionTime,不然很难理解watermark是怎么回事.我们先来看一下官网给出的一张图,非常形象地展示了Process Time、Event Time、Ingestion Time这三个时间分别所处的位置,如下图所示:我们转载 2021-06-29 23:49:37 · 634 阅读 · 0 评论 -
Flume介绍及调优
一、概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分。二、Flume特性(1)可靠性当节点出现故障.原创 2021-02-05 11:26:50 · 1177 阅读 · 2 评论 -
CDH介绍
1、Apache Hadoop 不足之处 • 版本管理混乱 • 部署过程繁琐、升级过程复杂 • 兼容性差 • 安全性低2、Hadoop 发行版 • Apache Hadoop • Cloudera’s Distribution Including Apache Hadoop(CDH) • Hortonworks Data Platform (HDP) • MapR • EMR • …3、CDH能解决哪些问题 • 1000台服务器的集群,最少要花费多长原创 2021-01-22 10:27:23 · 874 阅读 · 0 评论