自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 Docker快速上手

本篇文章不再赘述Docker的出身、优缺点、理念等一些概念,想要了解的可以去网上自行查阅资料,几乎每篇相关文章都会有的 - -#

2024-08-24 20:37:27 431

原创 Yarn调度流程

目前,Hadoop作业调度器主要有三种:FIFO、容量(Capacity Scheduler)和公平(Fair Scheduler)。Apache Hadoop3.1.3默认的资源调度器是Capacity Scheduler。先进先出不能体现任务的优先级,一些需要立即执行的任务仍需要等待前边的任务执行完才能执行。FIFO调度器(First In First Out):单队列,根据提交作业的先后顺序,先来先服务。Capacity Scheduler是Yahoo开发的多用户调度器。容器调度器资源分配算法。

2024-07-08 22:16:52 660

原创 PostgreSql-Install

PostgreSQL是一个强大的,它使用并扩展了SQL语言,并结合了许多功能,可以安全地存储和扩展最复杂的数据工作负载。

2024-04-20 00:00:54 888

原创 Apache-Doris基础概念

在AGGREGATE KEY 数据模型中,所有没有指定聚合方式(SUM、REPLACE、MAX、MIN)的列视为 Key 列。而其余则为 Value 列。Key 列必须在所有 Value 列之前。尽量选择整型类型。因为整型类型的计算和查找比较效率远高于字符串。对于不同长度的整型类型的选择原则,遵循够用即可。对于 VARCHAR 和 STRING 类型的长度,遵循 够用即可。所有列的总字节长度(包括 Key 和 Value)不能超过 100KB。

2024-03-17 14:49:25 1696

原创 Java常用集合

Java 集合可分为 Collection 和 Map 两大体系:Collection接口的继承树:Map接口的继承树:JDK 不提供此接口的任何直接实现,而是提供更具体的子接口(如:Set 和 List)去实现。Collection 接口是 List 和 Set 接口的父接口,该接口里定义的方法既可用于操作 Set 集合,也可用于操作 List 集合。List 集合类中元素有序、且可重复,集合中的每个元素都有其对应的顺序索引。List 集合存储数据,就像银行门口客服,给每一个来办理业务的客户分配序号:

2024-02-29 21:13:52 1322

原创 离线数仓仓库-关于拉链表

什么是拉链表,拉链表要怎么做,拉链的弊端和好处?

2024-02-01 15:46:26 772

原创 从笛卡尔积开始认识多表查询

左连接和右连接一样,其中的区别只在于基表所处的位置,left join的基表在左,right join的基表在右,因此不再重复赘述右连接(right join)。在关系型数据库中,笛卡尔积(Cartesian product)是指将两个表的所有行进行组合,生成一个新的结果集,其中每一行都包含了两个表的所有可能组合。,执行两个表的笛卡尔积操作将生成一个结果集,其中包含了表 A 的每一行与表 B 的每一行的组合。行子查询得到的记录为一行多字段,其中子查询获取的字段需要和where中的字段逐一比较。

2024-01-27 16:03:40 1347

原创 大数据分析组件Hive-集合数据结构

Hive是一个基于Hadoop的数据仓库基础设施,用于处理大规模分布式数据集。它提供了一个类似于SQL的查询语言(称为HiveQL),允许用户以类似于关系型数据库的方式查询和分析存储在Hadoop集群中的数据。Hive常作为离线数仓的分析工具,当面临Json数据时,Hive需要用到其数据结构构建出一张Json表才得以操作Json数据;(Hive4.0推出了Json解析)

2024-01-24 16:33:23 1334

原创 离线数据仓库-关于增量和全量

应用系统所产生的业务数据是数据仓库的重要数据来源,我们需要每日定时从业务数据库中抽取数据,传输到数据仓库中,之后再对数据进行分析统计。为了方便上层指标的统计,数据的同步策略有全量同步和增量同步。同步方式是针对对应的表而言的!

2024-01-16 22:04:41 1744 1

原创 数仓主题域和数据域、雪花模型,星型模型和星座模型

数据域,主题域,星型模型,雪花模型,星座模型

2023-09-14 15:07:28 1859

原创 Hbase基础概念

HBase组成架构,Master,RegionServer;HBase读写流程,HFile文件结构,布隆过滤器

2023-07-25 23:40:07 1333

原创 Clickhouse数据一致性和物化视图

Clickhouse数据一致性的实现和物化视图,常见问题的排除清除

2023-07-15 13:02:18 1356

原创 Clickhouse基础和基本优化

Clickhouse基本语法优化,基本概念,列式存储和行式存储的区别

2023-07-15 11:28:43 980

原创 FlinkSql概述

Table API和SQL是最上层的API,在Flink中这两种API被集成在一起,SQL执行的对象也是Flink中的表(Table),所以我们一般会认为它们是一体的。Flink是批流统一的处理框架,无论是批处理(DataSet API)还是流处理(DataStream API),在上层应用中都可以直接使用Table API或者SQL来实现;这两种API对于一张表执行相同的查询操作,得到的结果是完全一样的。

2023-06-19 16:45:08 10035

原创 Flink容错机制

Flink数据传输状态一致性,Checkpoint的设置,数据容错机制

2023-06-18 19:46:01 1415

原创 Flink-状态管理

这样,并行度缩放之后的并行子任务就获取到了联合后完整的“大列表”,可以自行选择要使用的状态项和要丢弃的状态项。这种“均匀分配”的具体方法就是“轮询”(round-robin),与之前介绍的rebanlance数据传输方式类似,是通过逐一“发牌”的方式将状态项平均分配的。与Keyed State中的列表状态的区别是:在算子状态的上下文中,不会按键(key)分别处理状态,所以每一个并行子任务上只会保留一个“列表”(list),也就是当前并行子任务上所有状态项的集合。在这种情况下,状态的访问方式又会有所不同。

2023-06-13 19:19:30 298

原创 Flink时间窗口和水位线

当一个窗口被触发计算完成后,窗口中的元素会被清除,并且该窗口的状态也会被清除。窗口的触发计算和窗口关闭是两个不同的操作,使用allowedLatenessAIP设置窗口的推迟关闭,即使水位线触发了关窗,因为设置的推迟关窗,窗口只会触发计算,之后属于该窗口的迟到数据到来后仍会触发计算,只有水位线到达延迟关窗时间后窗口才会真正关闭。时间窗口的水位线是参考所有上游任务发送的最小的水位线的,如果存在一个上游任务一直没有数据发送,那么该上游任务的水位线为Long的最小值,窗口将无法触发,所以设置空闲等待时间;

2023-06-11 18:12:33 1440

原创 Flink基础概念及算子

无界数据流例如从Kafka这样的消息组件中读取的数据一般,没有数据流结束的定义,即使没有数据也在进行消费。有界数据流有界数据流能够等到所有数据都提取之后再进行处理。有状态流处理将数据的中间状态进行存储,能够重复使用该状态进行处理。Flink的特点Flink计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活(窗口必须是批次的整数倍)状态有没有流式SQL有没有Flink分层API//todo Watersensor Pojo对象。

2023-06-08 21:14:30 3017

原创 OLAP数据库-ElasticSearch

(1)为用户提供按关键字查询的全文搜索功能。(JavaEE中使用较广泛)(2)实现企业海量数据的处理分析的解决方案。大数据领域的重要一份子,如著名的ELK 框架(ElasticSearch(存储分析),Logstash(采集),Kibana(可视化))。(3)作为 OLAP (联机分析处理)数据库,对数据进行统计分析。

2023-05-29 19:45:42 742

原创 HDFS读写流程详细过程

HDFS详细的读写流程,edit和fsimage文件的更新,WAL技术

2023-05-29 15:01:58 9432 11

原创 Spark-Sql

DataFrame、RDD、DataSet间的相互转换

2023-05-11 19:11:13 115

原创 Spark学习笔记_3_SparkShuffle

Spark的HashShuffle和SortShuffle

2023-05-10 19:52:02 214

原创 Scala-隐式转换和泛型

Scala隐式转换和泛型

2023-05-05 15:39:50 82 1

原创 Scala-模式匹配和异常

Scala模式匹配

2023-05-04 20:16:31 220 2

原创 Scala-集合

1)Scala 的集合有三大类:序列 Seq、集 Set、映射 Map,所有的集合都扩展自 Iterable特质。2)对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两个包不可变集合:scala.collection.immutable可变集合: scala.collection.mutable3)Scala 不可变集合,就是指该集合对象不可修改,每次修改就会返回一个新对象,而不会对原对象进行修改。类似于 java 中的 String 对象。

2023-05-03 13:24:21 181

原创 Scala-面向对象编程

类的定义:基本语法 [修饰符] class 类名 { 类体 }(1)Scala 语法中,类并不声明为 public,所有这些类都具有公有可见性(即默认就是public)(2)一个 Scala 源文件可以包含多个类属性的定义:[修饰符] var|val 属性名称 [:类型] = 属性值注:对属性添加Bean 属性(@BeanPropetry)注解,可以自动生成规范的 setXxx/getXxx 方法,val 修饰的属性不能赋默认值,必须显示指定。

2023-05-02 10:36:35 254 2

原创 Scala-函数式编程

没有名字的函数就是匿名函数。(x:Int)=>{函数体}x:表示输入参数类型;Int:表示输入参数类型;函数体:表示具体代码逻辑传递匿名函数至简原则:(1)参数的类型可以省略,会根据形参进行自动的推导(2)类型省略之后,发现只有一个参数,则圆括号可以省略;其他情况:没有参数和参数超过 1 的永远不能省略圆括号。(3)匿名函数如果只有一行,则大括号也可以省略(4)如果参数只出现一次,则参数省略且后面参数可以用_代替需求 1:传递的函数有一个参数。

2023-05-01 10:51:42 152 1

原创 Scala基本数据类型

是参考了Java的设计思想,可以说Scala是源于Java,同时马丁·奥德斯基也加入了自己的思想,将函数式编程语言的特点融合到JAVA中, 因此,对于学习过Java的同学,只要在学习Scala的过程中,搞清楚Scala和Java相同点和不同点,就可以快速的掌握Scala这门语言。(3)Nothing,可以作为没有正常返回值的方法的返回类型,非常直观的告诉你这个方法不会正常返回,而且由于 Nothing 是其他任意类型的子类,他还能跟要求返回值的方法兼容。(多范式,就是多种编程方法的意思。

2023-04-30 13:41:16 280 2

原创 Java-反射机制

Reflection(反射)是被视为动态语言的关键,反射机制允许程序在运行期间借助于 Reflection API 取得任何类的内部信息,并能直接操作任意对象的内部属性及方法。加载完类之后,在堆内存的方法区中就产生了一个 Class 类型的对象(一个类只有一个 Class 对象),这个对象就包含了完整的类的结构信息。我们可以通过这个对象看到类的结构。反射。Java 反射机制提供的功能:• 在运行时判断任意一个对象所属的类• 在运行时构造任意一个类的对象。

2023-04-28 16:58:40 250

原创 Mysql-主从复制

首先我们将多个节点共同组成一个复制组,在 执行读写(RW)事务 的时候,需要通过一致性协议层(Consensus 层)的同意,也就是读写事务想要进行提交,必须要经过组里“大多数人”(对应 Node 节点)的同意,大多数指的是同意的节点数量需要大于 (N/2+1),这样才可以进行提交,而不是原发起方一个说了算。如果操作的数据存储在同一个数据库中,那么对数据进行更新的时候,可以对记录加写锁,这样在读取的时候就不会发生数据不一致的情况。MySQL复制是异步的且串行化的,而且重启后从 接入点 开始复制。

2023-04-27 14:53:24 238

原创 Mysql-多版本并发控制(MVCC)

MVCC (Multiversion Concurrency Control),多版本并发控制。顾名思义,MVCC 是通过数据行的多个版本管理来实现数据库的 并发控制。这项技术使得在InnoDB的事务隔离级别下执行 一致性读 操作有了保证。换言之,就是为了查询一些正在被另一个事务更新的行,并且可以看到它们被更新之前的值,这样在做查询的时候就不用等待另一个事务释放锁。

2023-04-26 20:23:39 310

原创 Mysql-锁机制

在数据库中,除传统的计算资源(如CPU、RAM、I/O等)的争用以外,数据也是一种供许多用户共享的资源。为保证数据的一致性,需要对 并发操作进行控制 ,因此产生了 锁。同时 锁机制 也为实现MySQL的各个隔离级别提供了保证。锁冲突 也是影响数据库 并发访问性能 的一个重要因素。所以锁对数据库而言显得尤其重要,也更加复杂。

2023-04-25 18:18:10 362

原创 Mysql-事务

Mysql-事务相关知识

2023-04-24 19:10:36 316

原创 Mysql索引和索引失效

个人学习

2023-04-22 14:42:45 126

原创 Mysql-触发器

个人学习

2023-04-18 16:38:21 133

原创 Mysql-存储过程

个人学习笔记

2023-04-18 16:16:47 118

原创 Hadoop高可用

(1)所谓 HA(High Availablity),即高可用(7*24 小时不中断服务)。(2)实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制:HDFS 的 HA 和 YARN 的 HA。(3)NameNode 主要在以下两个方面影响 HDFS 集群➢ NameNode 机器发生意外,如宕机,集群将无法使用,直到管理员重启➢ NameNode 机器需要升级,包括软件、硬件升级,此时集群也将无法使用。

2023-04-08 11:09:49 277

原创 数据库规范化

数据库范式,ER模型的相关概念

2023-03-27 20:23:42 3378 1

原创 一篇文章学会Kafka

Kafka传统定义:Kafka是一个分布式的基于发布/订阅模式的消息队列(MessageQueue),主要应用于大数据实时处理领域。Kafka最新定义: Kafka是 一个开源的分布式事件流平台 (Event StreamingPlatform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息Kafka作为一个分布式的事件流哦平台,能够将存储其中的数据分成不同的类别,

2023-03-22 16:55:52 320

原创 Flume-数据监控

flume事务,flume组件结构,flumeSource类型

2023-03-19 20:46:35 978

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除