久醉绕心弦i-CSDN博客

原创 Flink1.13小知识

Flink1.13小知识提交作业模式在一些应用场景中，对于集群资源分配和占用的方式，可能会有特定的需求。Flink 为各种场景提供了不同的部署模式，主要有以下三种：⚫ 会话模式（Session Mode）⚫ 单作业模式（Per-Job Mode）⚫ 应用模式（Application Mode）它们的区别主要在于：集群的生命周期以及资源的分配方式；以及应用的 main 方法到底在哪里执行——客户端（Client）还是 JobManager。接下来我们就做一个展开说明。会话模式会话模式其实

2022-04-20 16:22:51 252

原创 spark core 复盘学习之Transformation与Action算子

二、Transformation转换算子2.1Value类型2.1.1map()映射2.1.2mapPartitions()以分区为单位执行Map2.1.3 map()和mapPartitions()区别2.1.4 mapPartitionsWithIndex()带分区号2.1.5 flatMap()压平2.1.6 glom()分区转换数组2.1.7 groupBy()分组groupBy会存在shuffle过程2.1.8...

2021-04-08 14:20:16 224

原创 spark core 复盘学习之RDD

一、RDD概述1.1 什么是RDD1.2 RDD特性 A list of partitions （多个分区，分区可以看成是数据集的基本组成单位）对于 RDD 来说，每个分区都会被一个计算任务处理，并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分区数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的 CPU Core 的数目。每个分配的存储是由BlockManager 实现的，每个分区都会被逻辑映射成 BlockManager 的一个

2021-04-07 17:12:20 165

原创 Atlas 2.0.0编译与CDH6.2.1集成

Atlas 2.0.0编译与CDH6.2.1集成Atlas能够提供开放式的元数据管理和治理功能。能够构建表与表之间的血缘关系，并且支持对表和构建表的过程进行分类管理。对于平台数据量越来越大，元数据管理显得至关重要，元数据有效的表达了数据的来源和流向以及依赖，Atlas的出现，有效的解决了元数据的管理问题。Atlas架构原理核心组件核心层Core类型系统Type System: Atlas 允许用户为他们想要管理的元数据对象定义一个模型。该模型由称为 "Type" 的定义组成。"类型"

2021-01-14 13:55:30 647

原创 NiFi技术干货

第1章 NiFi概述1.1 NiFi是什么简单的说，NiFi就是为了解决不同系统间数据自动流通问题而建立的。虽然dataflow这个术语在各种场景都有被使用，但我们在这里使用它来表示不同系统间的自动化的可管理的信息流。自企业拥有多个系统开始，一些系统会有数据生成，一些系统要消费数据，而不同系统之间数据的流通问题就出现了。这些问题出现的相应的解决方案已经被广泛的研究和讨论，其中企业集成就是一个全面且易于使用的方案。NiFi旨在帮助解决这些现代数据流挑战，其中主要的是复杂的范围，需要适应的需求变化的

2021-01-14 11:57:24 1490

原创 ClickHouse技术干货

第1章 ClickHouse概述1.1 什么是ClickHouseClickHouse是一个开源的，面向列的分析数据库，由Yandex为OLAP和大数据用例创建。 ClickHouse对实时查询处理的支持使其适用于需要亚秒级分析结果的应用程序。 ClickHouse的查询语言是SQL的一种方言，它支持强大的声明性查询功能，同时为最终用户提供熟悉度和较小的学习曲线。面向列的数据库将记录存储在按列而不是行分组的块中。通过不加载查询中不存在的列的数据，面向列的数据库在完成查询时花费的时间更少。因此，对

2021-01-14 11:51:13 1543

原创 Flink架构

摘来自《Flink原理、实战与性能优化》一书，作者是张利兵

2021-01-12 14:29:29 323

原创 Flink介绍

【摘要】本节书摘来自《Flink原理、实战与性能优化》一书中，作者是张利兵。

2021-01-12 13:41:34 228 1

原创 CDH生产集群线上调优

CDH集群线上调优，可做参考1 CM Service这些服务主要是提供监控功能，目前的调整主要集中在内存放，以便有足够的资源完成集群管理。服务选项配置值 Activity Monitor Java Heap Size 2G Alert Publisher Java Heap Size 2G E

2020-07-17 16:02:48 1011

原创 redis-4.0.11安装部署

redis的安装解压redis的源码包：[root@hadoop01 home]# tar -zxvf /home/redis-4.0.11.tar.gz -C /home/[root@hadoop01 ~]# cd /home/redis-4.0.11/执行编译安装：[root@hadoop01 redis-4.0.11]# yum -y install gcc gcc-c++[root@hadoop01 redis-4.0.11]# make[root@hadoop01 re

2020-07-10 18:28:49 396

原创 elasticsearch-6.5.3安装

ES集群安装1.集群规划： ip host 实例 10.0.0.15 hadoop01 es实例 10.0.0.41 hadoop02 es实例 10.0.0.10 hadoop03 es实例2.服务器环境配置2.1三台服务器分别创建普通用户elsearch以及用户组(elasticse...

2020-07-10 18:23:42 602

原创 HDFS组成架构概述

1）NameNode：它是一个主管，管理者 1. 管理HDFS的名称空间 2. 配置副本策略 3. 管理数据块Block映射信息 4. 处理客户端读写请求2）DataNode：执行实际的操作，执行者 1. 存储实际的数据块 2. 执行数据块的读/写操作3）Client：客户端 1. 文件切分，文件上传HDFS时，client将文件切分成一个一个的Block，然后进行上传 2. 与NameNode...

2020-07-10 18:14:49 1921

原创 HDFS读数据流程简述

1）客户端通过向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。...

2020-07-10 18:14:02 1266

原创 DataNode工作机制小结

1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。4）集群运行中可以安全加入和退出一些机器。..

2020-07-10 18:13:28 115

原创 HDFS-HA自动故障转移工作机制简述

ZooKeeper是维护少量协调数据，通知客户端这些数据的改变和监视客户端故障的高可用服务。HA的自动故障转移依赖于ZooKeeper的以下功能：1）故障检测：集群中的每个NameNode在ZooKeeper中维护了一个持久会话，如果机器崩溃，ZooKeeper中的会话将终止，ZooKeeper通知另一个NameNode需要触发故障转移。2）现役NameNode选择：ZooKeeper提供了一个简单的机制用于唯一的选择一个节点为active状态。如果目前现役NameNode崩溃，另一个节点可能从..

2020-07-10 18:12:31 375 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

久醉绕心弦的博客

原创 Flink1.13小知识

原创 spark core 复盘学习之Transformation与Action算子

原创 spark core 复盘学习之RDD

原创 Atlas 2.0.0编译与CDH6.2.1集成

原创 NiFi技术干货

原创 ClickHouse技术干货

原创 Flink架构

原创 Flink介绍

原创 CDH生产集群线上调优

原创 redis-4.0.11安装部署

原创 elasticsearch-6.5.3安装

原创 HDFS组成架构概述

原创 HDFS读数据流程简述

原创 DataNode工作机制小结

原创 HDFS-HA自动故障转移工作机制简述

原创 Yarn工作机制流程

原创作业提交过程之YARN

原创 Hadoop作业调度器小结

原创 HDFS写数据流程简述

原创基于CDH5.10.2安装spark2

原创 cloudera manager-5.10.2的安装（三、各个组件服务的安装分配）

原创 cloudera manager-5.10.2的安装（二、环境的依赖下载及安装CM）

原创 cloudera manager-5.10.2的安装（一、系统环境的配置）

大数据平台测试数据生产-使用TPC-H生成测试数据

kettle9.0.0.0-423

空空如也