爱过java-CSDN博客

Doris集群FE分为三个角色：Leader、Follower、Observer，默认只有一个Leader和多个Follower和Observer，当Leader宕机后，Followr会参与选举，选举成功后会成为新的Leader，Observer不参与选举，只同步Leader的数据。命令下发后，该BE节点的数据会向其它BE节点迁移，迁移完成后，Doris会删除该BE节点。取消后，当前BE节点会维持当前数据量，后续Doris会做负载均衡。

2023-07-22 08:34:12 1147

原创 Spark提交参数配置

三、cat /proc/cpuinfo| grep "processor"| wc -l 查看有多少核，占用50%~60%。二、free -h 查看每台服务器可用内存，占用50~60%--executor-memory (二)--executor-cores (三)一、有几台机器分配几个executor。--num-executors (一)

2023-06-24 10:40:14 265

原创 Git操作远程仓库

【代码】Git操作远程仓库。

2023-05-25 11:22:30 180

原创 Kafka配置SSL安全认

Kafka配置SSL安全认证

2023-02-28 10:53:44 3687 3

原创 Hive输出到CSV

Hive输出到CSV

2022-12-01 08:27:26 755

原创 Flink——反压

Flink网络传输的数据流向如下图所示。Sender在发送数据时，首先写入TaskManager内部的网络缓存，利用Netty进行传输——将待发送的数据存入Netty的ChannelOutboundBuffer，再经由Socket的发送缓存发送出去。Receiver在接收数据时是反过来的，同样要经过3层缓存，即Socket接收缓存→Netty ChannelInboundBuffer→TaskManager网络缓存。要实现流量控制，就是在上面的流程上做文章。反压（back pressure）就是流式系统中关

2022-06-06 20:36:27 714

原创 Flink架构

一、Flink集群架构1.1 Flink架构模型主要包含四个不同的组件：作业管理器（JobManager）资源管理器（ResourceManager）任务管理器（TaskManager）分发器（Application）Flink首先是由Scala和Java实现的，所有的组件都会运行在jvm上，当flink集群启动的时候，首先会启动一个JobManager和一个或多个TaskManager。由client提交任务给JobManager，JobManager再调度任务到一个或多个TaskManager上，然后T

2022-06-03 17:00:36 2250

原创 Flink-数据流编程

数据流是一个可能无限的事件序列。一.数据流图数据流程序描述了数据如何在算子之间流动，节点表示算子，边表示数据之间的依赖性。算子是数据流图中的功能单元，一个算子用来接收输入的数据，并将它们加工计算生成数据输出用于进一步处理。一个数据流图至少包含一个数据源和一个数据接收器。二、数据并行与任务并行第一，我们可以对输入的数据进行分区，并在数据子集上并行执行具有相同的算子的任务执行，这种类型的并行性就叫做数据并行性。第二，我们可以将不同算子在相同或不同的数据上执行。这种并行性称为任务并行

2022-05-26 20:04:37 956

原创 Kylin

一、数仓回顾1.1 核心概念数据仓库，OLAP和OLTP，维度和度量，事实表和维度表。星形模型和雪花模型。1.2 数据仓库这是商业智能的核心部分，主要是将不同数据源的数据整合到一起，通过多维分析为企业提供决策支持报表生成等。存入数据仓库的资料必定包含时间属性。数据仓库和数据库主要区别：一般来说，在传统 BI 领域里，数据仓库的数据同样是存储在 MySQL 这样的数据库中。大数据领域最常用的数据仓库就是 Hive ，我们要学习的 Kylin 也是以 Hive 作为默认的数据源的。

2022-05-20 19:59:56 3301

原创 Spark SQL

一、DataFrame与DataSet1.1 DataFrame可以简单的理解DataFrame为RDD+schema元信息在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似传统数据库的二维表格 DataFrame带有schema元信息，DataFrame所表示的数据集每一列都有名称和类型，DataFrame可以从很多数据源构建对象，如已存在的RDD、结构化文件、外部数据库、Hive表。RDD可以把内部元素当成java对象，DataFrame内部是一个个R

2022-05-20 11:44:43 630

原创 SparkStreaming

Spark Streaming 1. SparkStreaming简介 SparkStreaming是流式处理框架，是Spark API（RDD）的扩展，支持可扩展、高吞吐量、容错的准实时数据流处理实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，在接受数据同时可以使用高级功能的复杂算子来处理流数据。最终处理后的数据可以存放在文件系统，数据库等，方便实时展现。 2. SparkStreaming与Storm的区别

2022-05-17 20:36:38 743

原创 Spark

一、Spark简介1.1 Spark简介Apache Spark是专门为大数据处理而设计的通用的计算引擎。spark拥有MapReduce所具有的优点，但不同于Map Reduce的是Job中间输出结果可以缓存再内存中，从而不再需要读写HDFS，减少磁盘数据交互，因此Spark能更好的适应机器学习和数据挖掘等需要迭代的算法。Spark提供了Sparkcore RDD 、 Spark SQL 、 Spark Streaming 、 Spark MLlib 、 Spark GraphX等技术组件，可

2022-05-16 23:13:54 662

原创 Scala

一、Scala简介scala 是一门以 jvm 为运行环境的静态类型编程语言，具备面向对象及函数式编程的特性。特性：1.java和Scala可以混编2.类型推测（自动推测类型）3.并发和分布式（Actor）4.特质，特征(类似 java 中 interfaces 和 abstract 结合) 5.模式匹配（类似 java 中的 switch...case ） 6.高阶函数Scala应用场景kafka：分布式消息队列，内部代码经常用来处理并发的问题，用scala可以大大

2022-05-11 22:06:08 987

原创 ClickHouse

一、简介1.1 ClickHouse是一个用于联机分析的列式数据库管理系统。1.2 特点：开源的列式数据库管理系统，支持线性扩展，简单方便，高可靠性1.3 优点真正的面向列的DBMS（ClickHouse是一个DBMS,而不是一个单一的数据库。它允许在运行时创建表和数据库、加载数据和运行查询，而无需重新配置和重新启动服务器）数据压缩（一些面向列的DBMS（INFINIDB CE 和 MonetDB）不使用数据压缩。但是，数据压缩确实是提高了性能）磁盘存储的数据（许多面向列的DB

2022-05-05 22:18:56 1822

原创 Storm

一、Storm简介Storm时Twitter开源的分布式实时大数据处理框架，被业界称为实时版的hadoop。1.1 storm的优点Storm使用了netty来传送消息，消除了中间消息排队的过程，在消息的背后，storm使用了一种序列化反序列化的原语类型的自动化且高效的机制。storm的一个最有趣的地方时它注重容错和管理，Storm 实现了有保障的消息处理,所以每个元组Turple都会通过该拓扑topology结构进行全面管理。如果一个元组还未处理会自动从spout处重发，storm还实

2022-05-04 11:40:41 1192

原创 Kafka

一、异步通信原理1.1 观察者模式观察者模式又叫，发布订阅模式定义对象间有一种一对多的关系，使得当一个对象改变状态，则与它关联的对象都会得到通知并自动更新一个对象（目标对象）的状态发生改变，所有依赖的对象（观察者对象）都将得到通知现实生活中的应用场景京东到货通知1.2 生产者消费者模式传统模式：生产者直接将消息传递给指定的消费者耦合性特别高，当生产者或消费者发生变化的时候，都需要重写业务逻辑生产者消费者模式通过一个容器来解决生产者消费者的强耦合问题，生产者

2022-04-29 15:08:03 728

原创 ElasticSearch7.4.2

一、索引通俗的来讲正向索引就是通过key去找value，反向索引就是通过value去找key1.1 正向索引以文档ID为索引，表中记录文档中每个字的位置信息，查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。这种组织方法在建立索引的时候结构比较简单，建立比较方便易于维护若是有新的文档接入，则直接新建一个索引块，挂接在原索引文件的后面若是有文档删除，则直接找到该文档号对应的文档对应的索引信息，将其直接删除。缺点：索引检索效率太低，只能在一般简单的场景下才可以使用

2022-04-26 10:17:54 1384

原创 Redis5.0.3

一、缓存Cache1.1 缓存的概念缓存是存储计算机原始数据的复制集，以便于访问。1.2 缓存击穿概念：对于一些设置了过期时间的的key，如果这些key可能会在某些时间点被超高并发地访问，是一种非常“热点”的数据原因：缓存在某个时间点过期的时候，恰好在这个时间点对这个Key有大量的并发请求过来，该key没有命中，大量请求穿透到数据库服务器解决方案：对于热点数据，慎重考虑过期时间，确保热点期间key不会过期，甚至有些可以设置永不过期使用互斥锁（比如Java的多线程锁

2022-04-23 15:52:35 1026

原创 Azkaban

一、Azkaban介绍Azkaban实在Linkdln上创建的用于运行hadoop作业的批处理工作流作业调度程序。我们知道大数据的计算一般由多个任务单元组成（Hive、spark、shell）等，多个任务往往有着强依赖关系，上游任务执行完成下游任务才可以执行。而为了数据处理结果的准确性，就必须要求这些任务按照上下游依赖关系有序、高效的运行。一个较为基础的处理方式是预估出每个任务处理所需时间，根据先后顺序计算出任务的起止时间，通过定时跑任务的方式，让整个系统保持稳定的运行。Azkaban用于在一个

2022-04-20 15:34:59 188

原创 DataX

一、DataX3.0概述DataX是一个异构的数据源离线同步工具，致力于实现包括关系型数据库Mysql、Oracle等、HDFS、Hive、HBase、FTP等各种稳定数据源之间稳定高效的数据同步功能。1.1设计理念为了解决异构数据源同步问题，DataX将网状的异步数据链变成了星型数据链路，DataX作为中间传输载体，负责连接各种数据源。当需要接入一个新的数据的时候，只需要将此数据源对接到DataX，就能够实现跟已有数据源无缝同步。1.2 Datax3.0框架设计Dat.

2022-04-17 09:40:35 295

原创 Sqoop

Sqoop概述Sqoop是基于Hadoop之上的数据传输工具，主要用于Hadoop在关系型数据库，数据仓库，No SQL系统之间传递数据。通过Sqoop我们可以方便的将关系型数据库中的数据导入到Hadoop、Hive、HBase中，也可将HDFS中的数据导出到关系型数据库中。Sqoop架构Sqoop架构非常简单，它整合了Hive、Hbase等，通过map任务来传输数据，map负责数据的加载、转换然后存储到HDFS、Hive、Hbase之中。1）从工作角度模式来看，Sqoop是基于客户端的，用

2022-04-16 14:52:40 2630

原创 Flume

一、Flume简介Flume概述Flume是一个分布式、高可用、可靠的海量日志聚合的系统。支持在系统中定制各类数据发送方，用于收集数据。同时，Flume通过对数据进行简单处理，写到各种数据接收方。Flume使用场景线上数据无法直接向kafka写数据，这时候就需要Flume这样的系统帮你去传输。Flume的体系架构比较核心的组件client：client生产数据，运行在一个独立的线程Event：一个数据单元，消息头和消息体组成（Events可以是日志记录、 avro 对象等

2022-04-15 22:08:18 342

原创数据仓库 Data warehouse

数据仓库产生背景大规模数据被存储在数据库中，一些非热点数据需要我们对其进行处理计算，根据这些数据得出一些我们在某个时间段或某个背景下想要得到的数据。一、数据处理方式1.1 OLTP（On-line Transaction Processing），联机事务处理具有事务的特性，常用来处理高并发且数据量不大的查询。OLT主要是为了处理数据库，用于优化查询和负载，常见的优化在于主码索引和散列1.2 OLAP（On-line analytical Processing）联机分析处理OLAP则是

2022-04-15 11:07:47 1361

原创 HBase

一、HBase简介Hadoop Database是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。利用Hadoop的HDFS作为其文件存储系统，利用zookeeper作为其分布式协调服务主要用来存储半结构化或非结构化的松散数据。二、HBase数据模型HBase是一个稀疏的、分布的、多维、排序的映射，它以行键、列簇、列名、和时间戳为索引。2.1 NameSpace命名空间类似于关系型数据库中数据库的概念，它其实是表的逻辑分组。2.2 TableHbase的Tabl

2022-04-14 15:39:10 662

原创 Hadoop-HDFS

一、Hadoop简介Hadoop是一种处理、存储、计算海量的分布式非结构化数据的开源框架。优点：1、高可靠性。Hadoop的按位存储数据的能力让人们信赖。2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成数据计算的，这些集簇可以扩展到数以千计的节点中。3、高效性。Hadoop可以在各个节点上动态的移动数据，并保证各个节点的动态平衡，因此处理速度非常快。4、高容错性。Hadoop能够自动保存数据的多个副本，并且能够将失败的任务重新分配。5、低成本。Hadoop是开源的，

2022-04-10 20:06:54 1486

原创 Hive入门

Hive是基于Hadoop的一个数据仓库工具，它可以将结构化或板结构换的数据文件转化为一张数据库表，并提供简单的sql查询功能。一、Hive简介

2022-04-10 09:50:24 2354

原创 Zookeeper

一、ZAB协议用途ZAB（Zookeeper Atomic Broadcast）是一种为分布式协调服务zookeeper专门设计的支持奔溃回复的原子广播协议。ZAB是zookeeper实现分布式数据一致性的核心算法，借鉴Paxos算法。在zookeeper中主要依赖ZAB协议实现分布式数据一致性，基于该协议，zookeeper实现了一种主备模式的系统架构来保持集群中各个副本之间的数据一致性。ZAB的三个阶段（发现、同步、广播）发现：即要求zookeeper集群必须选举出一个leader进

2022-04-06 23:40:39 1334 4

原创 MapReduce

一、MapReduce概念和设计理念mapreduce是一种编程模型，用于大规模数据集的并行运算。Map（映射）和reduce（规约）都是从函数式编程语言里借来的。mapreduce是必须构建在hdfs之上的一种大数据离线计算框架。其设计理念主要是将大块数据拆分成小块数据，交给更多的节点参与运算，提高运算效率，然后再将计算的结果进行规约处理。二、MapReduce的计算框架2.1 拆分首先我们拿到一个文件的时候，我们会把它拆分成一个个Block块，存放在HDFS上，一般为128M，但是因..

2022-04-06 20:40:32 328

原创 Hadoop-HDFS

一、定义：狭义上来说，hadoop就是单独指代hadoop这个软件，广义上来说，hadoop指代大数据的一个生态圈，包括很多其他的软件二、分布式文件系统架构分布式文件系统：将数据存放在多台电脑上存储。分布式文件系统很多，HDFS是mapreduce计算的基础。2.1 文件切分思想源文件直接存放在一个磁盘上效率肯定很低（读取效率低，如果文件太大会超出单机存储的范围）字节数组：文件在磁盘上真实存储文件的抽象概念数组可以进行拆分合并，源文件不会收到影响。切分数

2022-04-06 20:36:51 1751

原创 Nginx

2022-03-30 21:25:31 3022

原创 Linux加密算法权限

一、加密算法1.1 不可逆加密算法可以通过数据计算加密后的结果，但是通过结果无法计算出加密数据应用场景 Hash算法常用在不可还原的密码存储、信息完整性校验。文档、音视频文件、软件安装包等用新老摘要对比是否一样(接收到的文件是否被修改) 用户名或者密码加密后数据库存储(数据库大多数不会存储关键信息的明文，就像很多登录功能的忘记密码不能找回，只能重置) 案例 123456 e10adc3949ba59abbe56e057f20f883e md5(md5(123

2022-03-24 22:55:32 1855

原创权限这一块

一、RBAC管理权限CRM中使用的就是RBAC管理权限RBAC是什么？RBAC是基于角色控制访问资源的，在RBAC中用户具有相应的角色，而一个角色又拥有相应的权限，它们之间都是层级互相依赖的，把权限赋予给角色，而把角色又赋予给用户。这样的权限设计起来很清楚，管理起来很方便。RBAC认为授权实际上是who、what、how三元组之间的关系，也就是who对what进行how的操作，也就是主体对客体进行的操作。who：是权限的拥有者（如User)what：是操作的对象（如Object）

2022-03-24 22:17:59 412

原创 Linux基本配置与命令

一、网络1、查看自己虚拟网卡地址 2、修改网络配置信息vi /etc/sysconfig/network-scripts/ifcfg-ens33 --修改 ONBOOT=yes BOOTPROTO=static //静态网络IP dhcp 动态获取网络IP --添加 IPADDR=192.168.58.100 NETMASK=255.255.255.0 GATEWAY=192.168.58.2 DNS1=114.114.114.114 删除------

2022-03-23 15:45:19 1167

原创计算机体系结构

一、冯诺依曼体系：1、计算机的数据和指令都是二进制存储的，而且存放到一起。2、程序和指令都是顺序执行的。3、计算机硬件是由输入、输出、存储、运算器、控制器组成。存储设备分为：RAM（内存随机存储器）可读写，速度快、断电易失，是逻辑IOROM（硬盘只读存储器）容量大、速度慢、只读，物理IO运算器+控制器=CPU二、计算机硬盘1、机械硬盘：数据是随机存储的所以数据的读取速度取决于（磁盘转速、寻道时间）寻道时间：找到数据对应的扇区。（用显微镜把盘片放大，会看见盘片表面凹凸不平，凸起

2022-03-21 23:21:25 3912

m0_61332144的博客

转载 Docker拉取加速与数据存储路径更改

原创 Doris扩容缩容

原创 Spark提交参数配置

原创 Git操作远程仓库

原创 Kafka配置SSL安全认

原创 Hive输出到CSV

原创 Flink——反压

原创 Flink架构

原创 Flink-数据流编程

原创 Kylin

原创 Spark SQL

原创 SparkStreaming

原创 Spark

原创 Scala

原创 ClickHouse

原创 Storm

原创 Kafka

原创 ElasticSearch7.4.2

原创 Redis5.0.3

原创 Azkaban

原创 DataX

原创 Sqoop

原创 Flume

原创数据仓库 Data warehouse

原创 HBase

原创 Hadoop-HDFS

原创 Hive入门

原创 Zookeeper

原创 MapReduce

原创 Hadoop-HDFS

原创 Nginx

原创 Linux加密算法权限

原创权限这一块

原创 Linux基本配置与命令

原创计算机体系结构

空空如也

空空如也