自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (2)
  • 收藏
  • 关注

原创 Flink1.13小知识

Flink1.13小知识提交作业模式在一些应用场景中,对于集群资源分配和占用的方式,可能会有特定的需求。Flink 为各种场景提供了不同的部署模式,主要有以下三种:⚫ 会话模式(Session Mode)⚫ 单作业模式(Per-Job Mode)⚫ 应用模式(Application Mode)它们的区别主要在于:集群的生命周期以及资源的分配方式;以及应用的 main 方法到底在哪里执行——客户端(Client)还是 JobManager。接下来我们就做一个展开说明。会话模式会话模式其实

2022-04-20 16:22:51 252

原创 spark core 复盘学习之Transformation与Action算子

二、Transformation转换算子​​​​​​​2.1Value类型2.1.1map()映射2.1.2mapPartitions()以分区为单位执行Map2.1.3 map()和mapPartitions()区别2.1.4 mapPartitionsWithIndex()带分区号2.1.5 flatMap()压平2.1.6 glom()分区转换数组2.1.7 groupBy()分组groupBy会存在shuffle过程2.1.8...

2021-04-08 14:20:16 224

原创 spark core 复盘学习之RDD

一、RDD概述1.1 什么是RDD1.2 RDD特性 A list of partitions (多个分区,分区可以看成是数据集的基本组成单位) 对于 RDD 来说, 每个分区都会被一个计算任务处理, 并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分区数, 如果没有指定, 那么就会采用默认值。 默认值就是程序所分配到的 CPU Core 的数目。每个分配的存储是由BlockManager 实现的, 每个分区都会被逻辑映射成 BlockManager 的一个

2021-04-07 17:12:20 165

原创 Atlas 2.0.0编译与CDH6.2.1集成

Atlas 2.0.0编译与CDH6.2.1集成Atlas能够提供开放式的元数据管理和治理功能。能够构建表与表之间的血缘关系,并且支持对表和构建表的过程进行分类管理。对于平台数据量越来越大,元数据管理显得至关重要,元数据有效的表达了数据的来源和流向以及依赖,Atlas的出现,有效的解决了元数据的管理问题。Atlas架构原理核心组件核心层Core类型系统Type System: Atlas 允许用户为他们想要管理的元数据对象定义一个模型。该模型由称为 "Type" 的定义组成。"类型"

2021-01-14 13:55:30 647

原创 NiFi技术干货

第1章 NiFi概述1.1 NiFi是什么简单的说,NiFi就是为了解决不同系统间数据自动流通问题而建立的。虽然dataflow这个术语在各种场景都有被使用,但我们在这里使用它来表示不同系统间的自动化的可管理的信息流。自企业拥有多个系统开始,一些系统会有数据生成,一些系统要消费数据,而不同系统之间数据的流通问题就出现了。这些问题出现的相应的解决方案已经被广泛的研究和讨论,其中企业集成就是一个全面且易于使用的方案。NiFi旨在帮助解决这些现代数据流挑战,其中主要的是复杂的范围,需要适应的需求变化的

2021-01-14 11:57:24 1490

原创 ClickHouse技术干货

第1章 ClickHouse概述1.1 什么是ClickHouseClickHouse是一个开源的,面向列的分析数据库,由Yandex为OLAP和大数据用例创建。 ClickHouse对实时查询处理的支持使其适用于需要亚秒级分析结果的应用程序。 ClickHouse的查询语言是SQL的一种方言,它支持强大的声明性查询功能,同时为最终用户提供熟悉度和较小的学习曲线。面向列的数据库将记录存储在按列而不是行分组的块中。通过不加载查询中不存在的列的数据,面向列的数据库在完成查询时花费的时间更少。因此,对

2021-01-14 11:51:13 1543

原创 Flink架构

摘来自《Flink原理、实战与性能优化》 一书,作者是张利兵

2021-01-12 14:29:29 323

原创 Flink介绍

【摘要】 本节书摘来自《Flink原理、实战与性能优化》 一书中,作者是张利兵 。

2021-01-12 13:41:34 228 1

原创 CDH生产集群线上调优

CDH集群线上调优,可做参考1 CM Service这些服务主要是提供监控功能,目前的调整主要集中在内存放,以便有足够的资源 完成集群管理。 服务 选项 配置值 Activity Monitor Java Heap Size 2G Alert Publisher Java Heap Size 2G E

2020-07-17 16:02:48 1011

原创 redis-4.0.11安装部署

redis的安装解压redis的源码包:[root@hadoop01 home]# tar -zxvf /home/redis-4.0.11.tar.gz -C /home/[root@hadoop01 ~]# cd /home/redis-4.0.11/执行编译安装:[root@hadoop01 redis-4.0.11]# yum -y install gcc gcc-c++[root@hadoop01 redis-4.0.11]# make[root@hadoop01 re

2020-07-10 18:28:49 396

原创 elasticsearch-6.5.3安装

ES集群安装1.集群规划: ip host 实例 10.0.0.15 hadoop01 es实例 10.0.0.41 hadoop02 es实例 10.0.0.10 hadoop03 es实例2.服务器环境配置2.1三台服务器分别创建普通用户elsearch以及用户组(elasticse...

2020-07-10 18:23:42 602

原创 HDFS组成架构概述

1)NameNode:它是一个主管,管理者 1. 管理HDFS的名称空间 2. 配置副本策略 3. 管理数据块Block映射信息 4. 处理客户端读写请求2)DataNode:执行实际的操作,执行者 1. 存储实际的数据块 2. 执行数据块的读/写操作3)Client:客户端 1. 文件切分,文件上传HDFS时,client将文件切分成一个一个的Block,然后进行上传 2. 与NameNode...

2020-07-10 18:14:49 1921

原创 HDFS读数据流程简述

1)客户端通过向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。3)DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。4)客户端以Packet为单位接收,先在本地缓存,然后写入目标文件。...

2020-07-10 18:14:02 1266

原创 DataNode工作机制小结

1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。4)集群运行中可以安全加入和退出一些机器。..

2020-07-10 18:13:28 115

原创 HDFS-HA自动故障转移工作机制简述

ZooKeeper是维护少量协调数据,通知客户端这些数据的改变和监视客户端故障的高可用服务。HA的自动故障转移依赖于ZooKeeper的以下功能:1)故障检测:集群中的每个NameNode在ZooKeeper中维护了一个持久会话,如果机器崩溃,ZooKeeper中的会话将终止,ZooKeeper通知另一个NameNode需要触发故障转移。2)现役NameNode选择:ZooKeeper提供了一个简单的机制用于唯一的选择一个节点为active状态。如果目前现役NameNode崩溃,另一个节点可能从..

2020-07-10 18:12:31 375 1

原创 Yarn工作机制流程

(1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Application。 (3)RM将该应用程序的资源路径返回给YarnRunner。 (4)该程序将运行所需资源提交到HDFS上。 (5)程序资源提交完毕后,申请运行mrAppMaster。 (6)RM将用户的请求初始化成一个Task。 (7)其中一个NodeManager领取到Tas...

2020-07-10 18:11:14 159

原创 作业提交过程之YARN

(1)作业提交第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。第2步:Client向RM申请一个作业id。第3步:RM给Client返回该job资源的提交路径和作业id。第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。第5步:Client提交完资源后,向RM申请运行MrAppMaster。(2)作业初始化第6步:当RM收到Client的请求后,将该job添加到容量调度器中。第7步:某一..

2020-07-10 18:09:42 214

原创 Hadoop作业调度器小结

Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler<property> <description>The class to use as the resource scheduler.</description> <name>yarn.resourcemanager.scheduler.class</name><value>org.apache.ha...

2020-07-10 18:07:41 133

原创 HDFS写数据流程简述

1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器上。4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。..

2020-07-10 18:04:53 1100 1

原创 基于CDH5.10.2安装spark2

前提:在我的CDH5.10集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本在线安装:        环境我这边是jdk1.8,scala-2.11.x ,操作系统Centos6.5  一、准备工作:        创建目录:mkdir -p /opt/cloudera/csd        并修改该权限及组:chown cloudera-scm:...

2018-10-20 15:04:17 817

原创 cloudera manager-5.10.2的安装(三、各个组件服务的安装分配)

选择自定义服务:(注意:合理分配主机,不要都按在一台,以免压力过大)点击添加服务即可(HDFS、YARN (MR2 Included)、Zookeeper、namenode和resourcemanager的HA、Hive、HBase、Sqoop2、Flume、Oozie、Hue、Kafka、Spark、Spark2)    异常现象:        内存调度过阀:默认是0.8---》修改...

2018-09-12 18:02:45 741

原创 cloudera manager-5.10.2的安装(二、环境的依赖下载及安装CM)

==========================部署规划开始==============================server.commysql、server、namenode、agent、resourcemanager、journalnode、zookeeper、master、flume、masteragent01.comsecondarynamenode、datanode...

2018-09-12 17:47:59 643

原创 cloudera manager-5.10.2的安装(一、系统环境的配置)

cloudera manager  管理大数据开发平台(集群)主从架构:             server:主节点进程,启动在一台服务器上,与各个从节点通讯收集从节点发来的服务器状态信息,另外负责整个集群的启动和停止,负责集群框架的安装部署统一调配,server进程所在的服务器上不安装任何大数据框架agent:从节点agent也称为主机,所有的大数据框架安装部署及任务的执行都是在a...

2018-09-12 16:58:23 359

大数据平台测试数据生产-使用TPC-H生成测试数据

TPC-H(商业智能计算测试)是TPC的重要测试标准之一,主要用来模拟真实商业的应用环境。 TPC-H 用 3NF 实现了一个数据仓库,共包含 8 个基本关系/表,其中表REGION和表NATION的记录数是固定的(分别为5和25),其它6个表的记录数,则随所设定的参数SF而有所不同,其数据量可以设定从 1GB~3TB 不等。有8个级别供用户选择

2021-03-02

kettle9.0.0.0-423

2020年2月官方9.0最新版Kettle,百度网盘地址含取件码,可在Linux/Windows/Mac上解压后直接运行

2020-07-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除