进击的Z同学-CSDN博客

原创大数据专题

Flink目录链接Flink安装mac版

2020-06-04 19:58:29 852

原创 Docker容器化 & Kubernetes容器集群

目录博客链接centos安装dockerhttps://blog.csdn.net/qq_24095055/article/details/87877283mac下安装dockerhttps://blog.csdn.net/qq_24095055/article/details/87876928第一个docker化的java应用https://blog.csd...

2019-07-08 14:04:24 586

原创消息中间件专题

消息中间件专题汇总目录博客链接Mac下ActiveMQ的下载与安装https://blog.csdn.net/qq_24095055/article/details/88974051

2019-04-02 15:59:24 3218

原创 Java知识体系总结

Java面试总结分类总结博客快速导航Java面试之基础篇Java面试之集合篇Java面试之多线程篇Java面试之JVM篇Java面试之数据结构篇Java面试之算法篇Java面试之框架篇Java面试之数据库篇Java面试之计算机网络篇Java面试之操作系统篇Java面试之真实面试经历篇...

2019-03-13 11:30:37 24480 2

转载 flink sql 知其所以然（一）| source\sink 原理（转）

在 flink sql 中，source 有两种表，一种是数据源表，一种是数据维表。数据源表就是有源源不断的数据的表。比如 mq。数据维表就是用来给某些数据扩充维度使用的。比如 redis，mysql，一般都是做扩容维度的维表 join 使用。本节主要介绍数据源表，数据维表的整个流程和数据源表几乎一样。下文中的 source 默认都为数据源表。首先在介绍 sql 之前，我们先来看看 datastream 中定义一个 source 需要的最基本的内容。

2023-09-03 21:28:34 858

转载 Flink on K8s 原理剖析及实践（转）

本文依据flink官方社区文章整理：https://mp.weixin.qq.com/s/sVdI61Un8C8ycArdrwgmTgKubernetes 是 Google 开源的容器集群管理系统，其提供应用部署、维护、扩展机制等功能，利用 Kubernetes 能方便地管理跨机器运行容器化的应用。Kubernetes 和 Yarn 相比，相当于下一代的资源管理系统，但是它的能力远远不止这些。

2023-09-03 15:05:06 591

原创 2023MySQL+MyBatis知识点整理

一系列设计数据库模型的规范。第一范式：原子性约束，不可再分解第二范式：唯一性约束第三范式：字段没有冗余性能优化策略，通过在表中增加冗余数据提高数据库读取性能。一系列操作要不全部成功，要不全部失败（只要其中一个环节失败就会触发回滚恢复到执行前状态）ACID（原子性、一致性、隔离性、持久性）脏读：一个事务读取到了其他事务还未提交的数据不可重复读：相同SQL查到同一条数据值不一样幻读：条数不一样。

2023-08-26 00:01:31 868

转载进程、线程和协程有什么区别

进程就是应用程序的启动实例。比如我们运行一个游戏，打开一个软件，就是开启了一个进程。进程拥有代码和打开的文件资源、数据资源、独立的内存空间。有人会认为，要提升CPU的利用率，可以开多个进程，但是开多个进程的话，进程间通讯是个比较麻烦的事情（进程之间地址空间是独立的，需要通过其他方式，例如：管道来解决）相反，线程之间是可以实现数据共享的，因为线程之间使用的是同一个地址空间。线程又叫做轻量级进程，是CPU调度的最小单位，线程从属于进程，是程序的实际执行者。一个进程至少包含一个主线程，也可以有更多的子线程。多个线

2022-12-04 23:29:09 962

转载 java springboot使用ssh连接数据库

然后再创建数据库连接，连接本地3307端口，连接请求就会通过ssh服务器被转发到远程3306端口。原理：项目启动时先创建ssh连接，监听本地3307端口。

2022-10-30 15:00:07 1883

原创 Linux shell常用命令总结2022

一般看信息都用查看man文档，而help只是一个简单的描述，方便，但man文档中都包含了。：删除目录（注意rmdir只能删除空的目录），-p 表示连同上层空目录级联删除。：显示目前所在的目录 -P 显示出确实的路径，而非使用链接（link）路径。：为某一个文件在另一个目录建立一个同步的链接，不会重复占用磁盘空间。：代表account这个用户的家目录（account是账号名称）：系统在今天的20:25关机，如果当前时间大于20:25隔天关机。：再过30分钟系统会重新启动，并显示后面的讯息给所有在线的使用者。

2022-10-16 23:40:26 1439

转载数据建模的基本流程

数据建模

2022-09-05 12:20:26 4511

原创 flink故障恢复的流程（从检查点恢复状态）

找到最近一次保存的检查点，从中读出每个算子任务状态的快照，分别填充到对应的状态中。这样，Flink 内部所有任务的状态，就恢复到了保存检查点的那一时刻，也就是刚好处理完第三个数据的时候，如图 10-5 所示。从检查点恢复状态后还有一个问题：如果直接继续处理数据，那么保存检查点之后、到发生故障这段时间内的数据，也就是第 4、5 个数据（“flink”“hello”）就相当于丢掉了；之后继续运行，又正常处理了一个数据“flink”，在处理第五个数据“hello”时发生了故障，如图 10-3所示。

2022-08-20 11:36:12 3364

原创 jvm调优思路

jhat(JVM Heap Analysis Tool)命令是与 jmap 搭配使用，用来分析 jmap 生成的 dump，jhat 内置了一个微型的 HTTP/HTML 服务器，生成 dump 的分析结果后，可以在浏览器中查看。线程快照是当前 java 虚拟机内每一条线程正在执行的方法堆栈的集合，生成线程快照的主要目的是定位线程出现长时间停顿的原因，如线程间死锁、死循环、请求外部资源导致的长时间等待等。JDK监控和故障处理命令有。

2022-08-20 11:29:53 660

原创算法题汇总

算法

2022-08-09 11:37:40 2901

原创 07Flink实时数仓（尚硅谷）- 实时项目优化

实时数仓

2022-07-23 12:26:48 2868

原创 06Flink实时数仓（尚硅谷）- 数据可视化接口实现

06Flink实时数仓（尚硅谷）- 数据可视化接口实现

2022-07-23 00:35:10 1104

原创 05Flink实时数仓（尚硅谷）- ClickHouse

05Flink实时数仓（尚硅谷）- ClickHouse

2022-07-22 18:33:33 3369

原创 04Flink实时数仓（尚硅谷）- DWS 层业务实现

04Flink实时数仓（尚硅谷）- DWS 层业务实现

2022-07-22 17:14:45 1307

原创 03Flink实时数仓（尚硅谷）- DWM 层业务实现

03Flink实时数仓（尚硅谷）- DWM 层业务实现

2022-07-22 16:32:23 1322 1

原创 02Flink实时数仓（尚硅谷）- DWD层数据准备

实时数仓

2022-07-22 00:02:08 1405

原创尚硅谷大数据技术之 Flink-CDC（转）

CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。CDC 主要分为基于查询和基于 Binlog 两种方式，我们主要了解一下这两种之间的区别：Flink 社区开发了组件，这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源，开源地址：https:

2022-07-10 23:54:14 1638

原创 Flink实时数仓（尚硅谷）- 数据采集

普通的实时计算优先考虑时效性，所以从数据源采集经过实时计算直接得到结果。如此做时效性更好，但是弊端是由于计算过程中的中间结果没有沉淀下来，所以当面对大量实时需求的时候，计算的复用性较差，开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念，对数据处理流程进行规划、分层，目的是提高数据的复用性。离线计算：就是在计算开始前已知所有输入数据，输入数据不会产生变化，一般计算量级较大，计算时间也较长。例如今天早上一点，把昨天累积的日志，计算出所需结果。最经典的就是 Hadoop 的 MapRedu

2022-07-10 23:28:46 4043 1

转载 Linux查看磁盘空间占用

linux 磁盘

2022-07-08 15:44:56 10537

转载 kafka系列七、kafka核心配置（转）

111

2022-06-30 20:33:59 3023 1

原创 Flink物理分区（Physical Partitioning）（出自b站尚硅谷）

文章目录前言1. 随机分区（shuffle）2. 轮询分区（Round-Robin）3. 重缩放分区（rescale）4. 广播（broadcast）5. 全局分区（global）6. 自定义分区（Custom）前言顾名思义，“分区”（partitioning）操作就是要将数据进行重新分布，传递到不同的流分区去进行下一步处理。其实我们对分区操作并不陌生，前面介绍聚合算子时，已经提到了 keyBy，它就是一种按照键的哈希值来进行重新分区的操作。只不过这种分区操作只能保证把数据按key“分开”，至于分得均不

2022-05-26 00:09:06 1854 1

转载 zookeeper（尚硅谷b站课程笔记2021）

文章目录第 1 章 Zookeeper 入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景1.5 下载地址第 2 章 Zookeeper 本地安装第 3 章 Zookeeper 集群操作3.1 集群操作3.1.1 集群安装3.1.2 选举机制（面试重点）3.1.3 ZK 集群启动停止脚本3.2 客户端命令行操作3.2.1 命令行语法3.2.2 znode 节点数据信息3.2.3 节点类型（持久/短暂/有序号/无序号）3.2.4 监听器原理1）节点的值变化监听2）节点的子节点变化监听（路径变化）3.

2022-05-22 21:57:11 1591

转载 macOS解压时“错误22 - 无效的参数”(转)

如果Zip文件是在Windows系统创建而且编码存在问题时，用MacBook的macOS自带的解压程序“归档使用工具”是解压不了的，这里提供两种方法。软件The Unarchiver解压有一种方法是改后缀名为rar后用The Unarchiver解压，但这种方法不一定能成功。通过终端输入命令另外一种方法是打开电脑终端，用macOS自带的输入命令ditto解压：ditto -x -k /要解压的文件.zip /要保存的路径注意，文件一定要是带路径的，最好的方法是输入ditto -x -k后拖拽文

2022-05-13 15:01:13 2158

原创 Flink内核源码解析(出自B站尚硅谷)

文章目录任务提交流程本套教程针对Flink 1.12.0版本的核心模块进行源码级讲解，从任务提交流程、通讯过程、Task调度、内存模型四大方面入手，庖丁解牛逐行分析源码，手术刀级别剖析Flink内核架构！任务提交流程实例以yarn-per-job为例。flink提交作业是通过flink run进行提交的，可以从提交脚本中看到启动类即程序的入口是：org.apache.flink.client.cli.CliFrontend查看其中的main方法，执行的逻辑简单总结如下：获取flink的c

2022-05-06 00:04:46 6402

转载 Flink 非对齐 Checkpoint 执行流程详解（转）

文章目录当前 Checkpoint 机制简述Checkpoint 与反压的耦合Unaligned Checkpoint总结作为 Flink 最基础也是最关键的容错机制，Checkpoint 快照机制很好地保证了 Flink 应用从异常状态恢复后的数据准确性。同时 Checkpoint 相关的 metrics 也是诊断 Flink 应用健康状态最为重要的指标，成功且耗时较短的 Checkpoint 表明作业运行状况良好，没有异常或反压。然而，由于 Checkpoint 与反压的耦合，反压反过来也会作用于

2022-05-04 00:42:02 1727 3

转载 1w 字详解 Flink 双流 join 的 3 种解决及优化方案（转）

文章目录1 引子1.1 数据库SQL中的JOIN1.2 离线场景下的JOIN2 实时场景下的JOIN2.1 方案思路3 Flink的双流JOIN3.1 内部运行机制3.2 JOIN实现机制4 基于Window Join的双流JOIN实现机制4.1 join算子4.2 coGroup算子5 基于Interval Join的双流JOIN实现机制6 基于Connect的双流JOIN实现机制6.1 Connect算子原理6.2 技术实现7 双流JOIN的优化与总结如何保证Flink双流Join准确性和及时性、

2022-05-03 21:37:06 3353

转载万字详解 Hive 查询的 18 种方式（转）

文章目录前言准备1、SELECT查询语句2、WHERE 条件语句3、GROUP BY 语句4、HAVING语句5、INNER JOIN语句6、 LEFT OUTER JOIN语句7、RIGHT OUTER JOIN语句8、FULL OUTER JOIN语句9、 LEFT SEMI JOIN语句10、笛卡尔积 JOIN 语句11、map-side JOIN语句12、多表JOIN语句13、ORDER BY 和 SORT BY 语句14、 DISTRIBUTE BY 和 SORT BY语句15、CLUSTER B

2022-05-03 11:42:13 1336

转载 Hive 核心知识点灵魂 16 问（转）

文章目录1. 请谈一下 Hive 的特点2. Hive 底层与数据库交互原理？3. Hive 的 HSQL 转换为 MapReduce 的过程？4. Hive 的两张表关联，使用 MapReduce 怎么实现？5. 请说明 hive 中 Sort By，Order By，Cluster By，Distrbute By 各代表什么意思？6. 写出 hive 中 split、coalesce 及 collect_list 函数的用法（可举例）？7. Hive 有哪些方式保存元数据，各有哪些特点？8. 内部表和外

2022-05-03 00:49:04 381

转载 1w 字详述 Flink CDC 打通数据实时入湖(转)

文章目录01 Flink CDC介绍02 Apache Iceberg介绍03Flink CDC打通数据实时导入Iceberg实践3.1 数据入湖环境准备3.2 数据入湖速度测试3.3 数据入湖任务运维3.4 数据入湖问题讨论04未来规划4.1 整合Iceberg到实时计算平台4.2 准实时数仓探索在构建实时数仓的过程中，如何快速、正确的同步业务数据是最先面临的问题，本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术，来解决业务数据实时入湖相关的问题。01 Fli

2022-05-01 14:20:40 1212

原创 2022大数据面试总结

flinkkafka大数据实时计算flink sqlflink cdcjavahadoopclickhouse

2022-05-01 13:28:14 1242 4

转载 Flink 对线面试官（五）：2w 字详述双流 Join 3 种解决方案 + 2 种优化方案

文章目录1.前言2.Join 的应用场景3.为什么流式计算中提到 Join 小伙伴萌就怕呢？4.带大家看一遍本文思路5.Flink Join 解决方案：Flink Window Join5.1.解决方案说明5.2.解决方案 Flink APISQL API（Flink 1.14 版本 Window TVF 中支持）：5.3.解决方案的特点5.4.解决方案的适用场景6.Flink Join 解决方案：Flink Interval Join6.1.解决方案说明6.2.解决方案 Flink API6.3.解决方案

2022-04-30 23:46:30 750

转载详解 Flink 状态管理

文章目录1.前言2.状态是什么东西？有了状态能做什么？3.为什么离线计算中不提状态，实时计算老是提到状态这个概念？状态到底在实时计算中解决了什么问题？3.1 离线任务真的是没有状态、状态管理这些个概念这个概念嘛？3.2 实时任务真的只能依赖状态、状态管理嘛？4.有了状态、为什么又出现了状态管理的概念？5.怎么学习 Flink 中的状态、状态管理相关的概念呢？6.Flink 中状态的分类？7.Flink 中状态的使用方式？8.Flink 状态后端的分类及使用建议？9.Flink 中状态的能力扩展 - TTL？

2022-04-29 00:24:21 1437

原创如何监控和诊断JVM堆内和堆外内存使用？

文章目录典型回答了解 JVM 内存的方法有很多，具体能力范围也有区别，简单总结如下：可以使用综合性的图形化工具，如 JConsole、VisualVM（注意，从 Oracle JDK 9 开始，VisualVM 已经不再包含在 JDK 安装包中）等。这些工具具体使用起来相对比较直观，直接连接到 Java 进程，然后就可以在图形化界面里掌握内存使用情况。以 JConsole 为例，其内存页面可以显示常见的堆内存和各种堆外部分使用状态。也可以使用命令行工具进行运行时查询，如 jstat 和 jm

2022-03-27 20:13:50 1292

转载 Java锁Monitor-通过openjdk源码分析ObjectMonitor底层实现

文章目录在我们分析synchronized关键字底层信息时，其中谈到了Monitor对象，它是由C++来实现的，那，到底它长啥样呢？我们在编写同步代码时完全木有看到该对象的存在，所以这次打算真正来瞅一下它的真正面目，而对于这个Hospot代码JDK是并没有开源的，但是社区版本的JDK是开源了，在openjdk上可以阅读得到，所以下面先到openjdk上瞅一下：所以点击一下它：点击一下：然后点击左侧的browser方便我们浏览代码：然后定位到这个路径：然后点击runtime/，其中

2022-03-27 19:47:48 673

转载一文搞懂 Hadoop 生态系统的组件(转)

文章目录01Hadoop概述02Hadoop生态圈03Hadoop的优缺点导读：Hadoop是较早用于处理大数据集合的分布式存储计算基础架构，目前由Apache软件基金会管理。通过Hadoop，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力执行高速运算和存储。简单地说，Hadoop是一个平台，在它之上可以更容易地开发和运行处理大规模数据的软件。01Hadoop概述Hadoop体系也是一个计算框架，在这个框架下，可以使用一种简单的编程模式，通过多台计算机构成的集群，分布式处理

2022-03-13 21:45:59 5076

datasync 数据同步 大数据 python

大数据入门指南v1.0

jd-gui-osx-1.6.6.zip

空空如也

datasync 数据同步大数据 python