Aimyon_36-CSDN博客

原创 Docker快速上手

本篇文章不再赘述Docker的出身、优缺点、理念等一些概念，想要了解的可以去网上自行查阅资料，几乎每篇相关文章都会有的 - -#

2024-08-24 20:37:27 431

目前，Hadoop作业调度器主要有三种：FIFO、容量（Capacity Scheduler）和公平（Fair Scheduler）。Apache Hadoop3.1.3默认的资源调度器是Capacity Scheduler。先进先出不能体现任务的优先级，一些需要立即执行的任务仍需要等待前边的任务执行完才能执行。FIFO调度器（First In First Out）：单队列，根据提交作业的先后顺序，先来先服务。Capacity Scheduler是Yahoo开发的多用户调度器。容器调度器资源分配算法。

2024-07-08 22:16:52 660

原创 PostgreSql-Install

PostgreSQL是一个强大的，它使用并扩展了SQL语言，并结合了许多功能，可以安全地存储和扩展最复杂的数据工作负载。

2024-04-20 00:00:54 888

原创 Apache-Doris基础概念

在AGGREGATE KEY 数据模型中，所有没有指定聚合方式（SUM、REPLACE、MAX、MIN）的列视为 Key 列。而其余则为 Value 列。Key 列必须在所有 Value 列之前。尽量选择整型类型。因为整型类型的计算和查找比较效率远高于字符串。对于不同长度的整型类型的选择原则，遵循够用即可。对于 VARCHAR 和 STRING 类型的长度，遵循够用即可。所有列的总字节长度（包括 Key 和 Value）不能超过 100KB。

2024-03-17 14:49:25 1696

原创 Java常用集合

Java 集合可分为 Collection 和 Map 两大体系：Collection接口的继承树:Map接口的继承树:JDK 不提供此接口的任何直接实现，而是提供更具体的子接口（如：Set 和 List）去实现。Collection 接口是 List 和 Set 接口的父接口，该接口里定义的方法既可用于操作 Set 集合，也可用于操作 List 集合。List 集合类中元素有序、且可重复，集合中的每个元素都有其对应的顺序索引。List 集合存储数据，就像银行门口客服，给每一个来办理业务的客户分配序号：

2024-02-29 21:13:52 1322

原创离线数仓仓库-关于拉链表

什么是拉链表，拉链表要怎么做，拉链的弊端和好处？

2024-02-01 15:46:26 772

原创从笛卡尔积开始认识多表查询

左连接和右连接一样，其中的区别只在于基表所处的位置，left join的基表在左，right join的基表在右，因此不再重复赘述右连接(right join)。在关系型数据库中，笛卡尔积（Cartesian product）是指将两个表的所有行进行组合，生成一个新的结果集，其中每一行都包含了两个表的所有可能组合。，执行两个表的笛卡尔积操作将生成一个结果集，其中包含了表 A 的每一行与表 B 的每一行的组合。行子查询得到的记录为一行多字段，其中子查询获取的字段需要和where中的字段逐一比较。

2024-01-27 16:03:40 1347

原创大数据分析组件Hive-集合数据结构

Hive是一个基于Hadoop的数据仓库基础设施，用于处理大规模分布式数据集。它提供了一个类似于SQL的查询语言（称为HiveQL），允许用户以类似于关系型数据库的方式查询和分析存储在Hadoop集群中的数据。Hive常作为离线数仓的分析工具，当面临Json数据时，Hive需要用到其数据结构构建出一张Json表才得以操作Json数据；(Hive4.0推出了Json解析)

2024-01-24 16:33:23 1334

原创离线数据仓库-关于增量和全量

应用系统所产生的业务数据是数据仓库的重要数据来源，我们需要每日定时从业务数据库中抽取数据，传输到数据仓库中，之后再对数据进行分析统计。为了方便上层指标的统计，数据的同步策略有全量同步和增量同步。同步方式是针对对应的表而言的！

2024-01-16 22:04:41 1744 1

原创数仓主题域和数据域、雪花模型，星型模型和星座模型

数据域，主题域，星型模型，雪花模型，星座模型

2023-09-14 15:07:28 1859

原创 Hbase基础概念

HBase组成架构，Master,RegionServer；HBase读写流程，HFile文件结构，布隆过滤器

2023-07-25 23:40:07 1333

原创 Clickhouse数据一致性和物化视图

Clickhouse数据一致性的实现和物化视图，常见问题的排除清除

2023-07-15 13:02:18 1356

原创 Clickhouse基础和基本优化

Clickhouse基本语法优化，基本概念，列式存储和行式存储的区别

2023-07-15 11:28:43 980

原创 FlinkSql概述

Table API和SQL是最上层的API，在Flink中这两种API被集成在一起，SQL执行的对象也是Flink中的表（Table），所以我们一般会认为它们是一体的。Flink是批流统一的处理框架，无论是批处理（DataSet API）还是流处理（DataStream API），在上层应用中都可以直接使用Table API或者SQL来实现；这两种API对于一张表执行相同的查询操作，得到的结果是完全一样的。

2023-06-19 16:45:08 10035

原创 Flink容错机制

Flink数据传输状态一致性，Checkpoint的设置，数据容错机制

2023-06-18 19:46:01 1415

原创 Flink-状态管理

这样，并行度缩放之后的并行子任务就获取到了联合后完整的“大列表”，可以自行选择要使用的状态项和要丢弃的状态项。这种“均匀分配”的具体方法就是“轮询”（round-robin），与之前介绍的rebanlance数据传输方式类似，是通过逐一“发牌”的方式将状态项平均分配的。与Keyed State中的列表状态的区别是：在算子状态的上下文中，不会按键（key）分别处理状态，所以每一个并行子任务上只会保留一个“列表”（list），也就是当前并行子任务上所有状态项的集合。在这种情况下，状态的访问方式又会有所不同。

2023-06-13 19:19:30 298

原创 Flink时间窗口和水位线

当一个窗口被触发计算完成后，窗口中的元素会被清除，并且该窗口的状态也会被清除。窗口的触发计算和窗口关闭是两个不同的操作，使用allowedLatenessAIP设置窗口的推迟关闭，即使水位线触发了关窗，因为设置的推迟关窗，窗口只会触发计算，之后属于该窗口的迟到数据到来后仍会触发计算，只有水位线到达延迟关窗时间后窗口才会真正关闭。时间窗口的水位线是参考所有上游任务发送的最小的水位线的，如果存在一个上游任务一直没有数据发送，那么该上游任务的水位线为Long的最小值，窗口将无法触发，所以设置空闲等待时间；

2023-06-11 18:12:33 1440

原创 Flink基础概念及算子

无界数据流例如从Kafka这样的消息组件中读取的数据一般，没有数据流结束的定义，即使没有数据也在进行消费。有界数据流有界数据流能够等到所有数据都提取之后再进行处理。有状态流处理将数据的中间状态进行存储，能够重复使用该状态进行处理。Flink的特点Flink计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有Flink分层API//todo Watersensor Pojo对象。

2023-06-08 21:14:30 3017

原创 OLAP数据库-ElasticSearch

（1）为用户提供按关键字查询的全文搜索功能。(JavaEE中使用较广泛)（2）实现企业海量数据的处理分析的解决方案。大数据领域的重要一份子，如著名的ELK 框架(ElasticSearch(存储分析),Logstash(采集),Kibana(可视化))。（3）作为 OLAP (联机分析处理)数据库，对数据进行统计分析。

2023-05-29 19:45:42 742

原创 HDFS读写流程详细过程

HDFS详细的读写流程，edit和fsimage文件的更新，WAL技术

2023-05-29 15:01:58 9432 11

原创 Spark-Sql

DataFrame、RDD、DataSet间的相互转换

2023-05-11 19:11:13 115

原创 Spark学习笔记_3_SparkShuffle

Spark的HashShuffle和SortShuffle

2023-05-10 19:52:02 214

原创 Scala-隐式转换和泛型

Scala隐式转换和泛型

2023-05-05 15:39:50 82 1

原创 Scala-模式匹配和异常

Scala模式匹配

2023-05-04 20:16:31 220 2

原创 Scala-集合

1）Scala 的集合有三大类：序列 Seq、集 Set、映射 Map，所有的集合都扩展自 Iterable特质。2）对于几乎所有的集合类，Scala 都同时提供了可变和不可变的版本，分别位于以下两个包不可变集合：scala.collection.immutable可变集合： scala.collection.mutable3）Scala 不可变集合，就是指该集合对象不可修改，每次修改就会返回一个新对象，而不会对原对象进行修改。类似于 java 中的 String 对象。

2023-05-03 13:24:21 181

原创 Scala-面向对象编程

类的定义:基本语法 [修饰符] class 类名 { 类体 }（1）Scala 语法中，类并不声明为 public，所有这些类都具有公有可见性（即默认就是public）（2）一个 Scala 源文件可以包含多个类属性的定义:[修饰符] var|val 属性名称 [：类型] = 属性值注：对属性添加Bean 属性（@BeanPropetry）注解，可以自动生成规范的 setXxx/getXxx 方法，val 修饰的属性不能赋默认值，必须显示指定。

2023-05-02 10:36:35 254 2

原创 Scala-函数式编程

没有名字的函数就是匿名函数。(x:Int)=>{函数体}x：表示输入参数类型；Int：表示输入参数类型；函数体：表示具体代码逻辑传递匿名函数至简原则：（1）参数的类型可以省略，会根据形参进行自动的推导（2）类型省略之后，发现只有一个参数，则圆括号可以省略；其他情况：没有参数和参数超过 1 的永远不能省略圆括号。（3）匿名函数如果只有一行，则大括号也可以省略（4）如果参数只出现一次，则参数省略且后面参数可以用_代替需求 1：传递的函数有一个参数。

2023-05-01 10:51:42 152 1

原创 Scala基本数据类型

是参考了Java的设计思想，可以说Scala是源于Java，同时马丁·奥德斯基也加入了自己的思想，将函数式编程语言的特点融合到JAVA中, 因此，对于学习过Java的同学，只要在学习Scala的过程中，搞清楚Scala和Java相同点和不同点，就可以快速的掌握Scala这门语言。（3）Nothing，可以作为没有正常返回值的方法的返回类型，非常直观的告诉你这个方法不会正常返回，而且由于 Nothing 是其他任意类型的子类，他还能跟要求返回值的方法兼容。（多范式，就是多种编程方法的意思。

2023-04-30 13:41:16 280 2

原创 Java-反射机制

Reflection（反射）是被视为动态语言的关键，反射机制允许程序在运行期间借助于 Reflection API 取得任何类的内部信息，并能直接操作任意对象的内部属性及方法。加载完类之后，在堆内存的方法区中就产生了一个 Class 类型的对象（一个类只有一个 Class 对象），这个对象就包含了完整的类的结构信息。我们可以通过这个对象看到类的结构。反射。Java 反射机制提供的功能：• 在运行时判断任意一个对象所属的类• 在运行时构造任意一个类的对象。

2023-04-28 16:58:40 250

原创 Mysql-主从复制

首先我们将多个节点共同组成一个复制组，在执行读写（RW）事务的时候，需要通过一致性协议层（Consensus 层）的同意，也就是读写事务想要进行提交，必须要经过组里“大多数人”（对应 Node 节点）的同意，大多数指的是同意的节点数量需要大于（N/2+1），这样才可以进行提交，而不是原发起方一个说了算。如果操作的数据存储在同一个数据库中，那么对数据进行更新的时候，可以对记录加写锁，这样在读取的时候就不会发生数据不一致的情况。MySQL复制是异步的且串行化的，而且重启后从接入点开始复制。

2023-04-27 14:53:24 238

原创 Mysql-多版本并发控制(MVCC)

MVCC （Multiversion Concurrency Control），多版本并发控制。顾名思义，MVCC 是通过数据行的多个版本管理来实现数据库的并发控制。这项技术使得在InnoDB的事务隔离级别下执行一致性读操作有了保证。换言之，就是为了查询一些正在被另一个事务更新的行，并且可以看到它们被更新之前的值，这样在做查询的时候就不用等待另一个事务释放锁。

2023-04-26 20:23:39 310

原创 Mysql-锁机制

在数据库中，除传统的计算资源（如CPU、RAM、I/O等）的争用以外，数据也是一种供许多用户共享的资源。为保证数据的一致性，需要对并发操作进行控制，因此产生了锁。同时锁机制也为实现MySQL的各个隔离级别提供了保证。锁冲突也是影响数据库并发访问性能的一个重要因素。所以锁对数据库而言显得尤其重要，也更加复杂。

2023-04-25 18:18:10 362

原创 Mysql-事务

Mysql-事务相关知识

2023-04-24 19:10:36 316

原创 Mysql索引和索引失效

个人学习

2023-04-22 14:42:45 126

原创 Mysql-触发器

个人学习

2023-04-18 16:38:21 133

原创 Mysql-存储过程

个人学习笔记

2023-04-18 16:16:47 118

原创 Hadoop高可用

（1）所谓 HA（High Availablity），即高可用（7*24 小时不中断服务）。（2）实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制：HDFS 的 HA 和 YARN 的 HA。（3）NameNode 主要在以下两个方面影响 HDFS 集群➢ NameNode 机器发生意外，如宕机，集群将无法使用，直到管理员重启➢ NameNode 机器需要升级，包括软件、硬件升级，此时集群也将无法使用。

2023-04-08 11:09:49 277

原创数据库规范化

数据库范式，ER模型的相关概念

2023-03-27 20:23:42 3378 1

原创一篇文章学会Kafka

Kafka传统定义：Kafka是一个分布式的基于发布/订阅模式的消息队列（MessageQueue），主要应用于大数据实时处理领域。Kafka最新定义： Kafka是一个开源的分布式事件流平台（Event StreamingPlatform），被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。发布/订阅：消息的发布者不会将消息直接发送给特定的订阅者，而是将发布的消息分为不同的类别，订阅者只接收感兴趣的消息Kafka作为一个分布式的事件流哦平台,能够将存储其中的数据分成不同的类别,

2023-03-22 16:55:52 320

原创 Flume-数据监控

flume事务，flume组件结构，flumeSource类型

2023-03-19 20:46:35 978

空空如也

空空如也