- 博客(407)
- 资源 (3)
- 收藏
- 关注
原创 Docker容器化 & Kubernetes容器集群
目录博客链接centos安装dockerhttps://blog.csdn.net/qq_24095055/article/details/87877283mac下安装dockerhttps://blog.csdn.net/qq_24095055/article/details/87876928第一个docker化的java应用https://blog.csd...
2019-07-08 14:04:24 568
原创 消息中间件专题
消息中间件专题汇总目录博客链接Mac下ActiveMQ的下载与安装https://blog.csdn.net/qq_24095055/article/details/88974051
2019-04-02 15:59:24 3205
原创 Java知识体系总结
Java面试总结分类总结博客快速导航Java面试之基础篇Java面试之集合篇Java面试之多线程篇Java面试之JVM篇Java面试之数据结构篇Java面试之算法篇Java面试之框架篇Java面试之数据库篇Java面试之计算机网络篇Java面试之操作系统篇Java面试之真实面试经历篇...
2019-03-13 11:30:37 24434 2
转载 flink sql 知其所以然(一)| source\sink 原理(转)
在 flink sql 中,source 有两种表,一种是数据源表,一种是数据维表。数据源表就是有源源不断的数据的表。比如 mq。数据维表就是用来给某些数据扩充维度使用的。比如 redis,mysql,一般都是做扩容维度的维表 join 使用。本节主要介绍数据源表,数据维表的整个流程和数据源表几乎一样。下文中的 source 默认都为数据源表。首先在介绍 sql 之前,我们先来看看 datastream 中定义一个 source 需要的最基本的内容。
2023-09-03 21:28:34 723
转载 Flink on K8s 原理剖析及实践(转)
本文依据flink官方社区文章整理:https://mp.weixin.qq.com/s/sVdI61Un8C8ycArdrwgmTgKubernetes 是 Google 开源的容器集群管理系统,其提供应用部署、维护、扩展机制等功能,利用 Kubernetes 能方便地管理跨机器运行容器化的应用。Kubernetes 和 Yarn 相比,相当于下一代的资源管理系统,但是它的能力远远不止这些。
2023-09-03 15:05:06 512
原创 2023MySQL+MyBatis知识点整理
一系列设计数据库模型的规范。第一范式:原子性约束,不可再分解第二范式:唯一性约束第三范式:字段没有冗余性能优化策略,通过在表中增加冗余数据提高数据库读取性能。一系列操作要不全部成功,要不全部失败(只要其中一个环节失败就会触发回滚恢复到执行前状态)ACID(原子性、一致性、隔离性、持久性)脏读:一个事务读取到了其他事务还未提交的数据不可重复读:相同SQL查到同一条数据值不一样幻读:条数不一样。
2023-08-26 00:01:31 750
转载 进程、线程和协程有什么区别
进程就是应用程序的启动实例。比如我们运行一个游戏,打开一个软件,就是开启了一个进程。进程拥有代码和打开的文件资源、数据资源、独立的内存空间。有人会认为,要提升CPU的利用率,可以开多个进程,但是开多个进程的话,进程间通讯是个比较麻烦的事情(进程之间地址空间是独立的,需要通过其他方式,例如:管道来解决)相反,线程之间是可以实现数据共享的,因为线程之间使用的是同一个地址空间。线程又叫做轻量级进程,是CPU调度的最小单位,线程从属于进程,是程序的实际执行者。一个进程至少包含一个主线程,也可以有更多的子线程。多个线
2022-12-04 23:29:09 901 1
转载 java springboot使用ssh连接数据库
然后再创建数据库连接,连接本地3307端口,连接请求就会通过ssh服务器被转发到远程3306端口。原理:项目启动时先创建ssh连接,监听本地3307端口。
2022-10-30 15:00:07 1733
原创 Linux shell常用命令总结2022
一般看信息都用查看man文档,而help只是一个简单的描述,方便,但man文档中都包含了。:删除目录(注意rmdir只能删除空的目录),-p 表示连同上层空目录级联删除。:显示目前所在的目录 -P 显示出确实的路径,而非使用链接(link)路径。:为某一个文件在另一个目录建立一个同步的链接,不会重复占用磁盘空间。:代表account这个用户的家目录(account是账号名称):系统在今天的20:25关机,如果当前时间大于20:25隔天关机。:再过30分钟系统会重新启动,并显示后面的讯息给所有在线的使用者。
2022-10-16 23:40:26 1314
原创 flink故障恢复的流程(从检查点恢复状态)
找到最近一次保存的检查点,从中读出每个算子任务状态的快照,分别填充到对应的状态中。这样,Flink 内部所有任务的状态,就恢复到了保存检查点的那一时刻,也就是刚好处理完第三个数据的时候,如图 10-5 所示。从检查点恢复状态后还有一个问题:如果直接继续处理数据,那么保存检查点之后、到发生故障这段时间内的数据,也就是第 4、5 个数据(“flink”“hello”)就相当于丢掉了;之后继续运行,又正常处理了一个数据“flink”,在处理第五个数据“hello”时发生了故障,如图 10-3所示。
2022-08-20 11:36:12 3240
原创 jvm调优思路
jhat(JVM Heap Analysis Tool)命令是与 jmap 搭配使用,用来分析 jmap 生成的 dump,jhat 内置了一个微型的 HTTP/HTML 服务器,生成 dump 的分析结果后,可以在浏览器中查看。线程快照是当前 java 虚拟机内每一条线程正在执行的方法堆栈的集合,生成线程快照的主要目的是定位线程出现长时间停顿的原因,如线程间死锁、死循环、请求外部资源导致的长时间等待等。JDK监控和故障处理命令有。
2022-08-20 11:29:53 618
原创 尚硅谷大数据技术之 Flink-CDC(转)
CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。CDC 主要分为基于查询和基于 Binlog 两种方式,我们主要了解一下这两种之间的区别:Flink 社区开发了 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源,开源地址:https:
2022-07-10 23:54:14 1548
原创 Flink实时数仓(尚硅谷)- 数据采集
普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。离线计算:就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是 Hadoop 的 MapRedu
2022-07-10 23:28:46 3865 1
原创 Flink物理分区(Physical Partitioning)(出自b站尚硅谷)
文章目录前言1. 随机分区(shuffle)2. 轮询分区(Round-Robin)3. 重缩放分区(rescale)4. 广播(broadcast)5. 全局分区(global)6. 自定义分区(Custom)前言顾名思义,“分区”(partitioning)操作就是要将数据进行重新分布,传递到不同的流分区去进行下一步处理。其实我们对分区操作并不陌生,前面介绍聚合算子时,已经提到了 keyBy,它就是一种按照键的哈希值来进行重新分区的操作。只不过这种分区操作只能保证把数据按key“分开”,至于分得均不
2022-05-26 00:09:06 1803 1
转载 zookeeper(尚硅谷b站课程笔记2021)
文章目录第 1 章 Zookeeper 入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景1.5 下载地址第 2 章 Zookeeper 本地安装第 3 章 Zookeeper 集群操作3.1 集群操作3.1.1 集群安装3.1.2 选举机制(面试重点)3.1.3 ZK 集群启动停止脚本3.2 客户端命令行操作3.2.1 命令行语法3.2.2 znode 节点数据信息3.2.3 节点类型(持久/短暂/有序号/无序号)3.2.4 监听器原理1)节点的值变化监听2)节点的子节点变化监听(路径变化)3.
2022-05-22 21:57:11 1494
转载 macOS解压时“错误22 - 无效的参数”(转)
如果Zip文件是在Windows系统创建而且编码存在问题时,用MacBook的macOS自带的解压程序“归档使用工具”是解压不了的,这里提供两种方法。软件The Unarchiver解压有一种方法是改后缀名为rar后用The Unarchiver解压,但这种方法不一定能成功。通过终端输入命令另外一种方法是打开电脑终端,用macOS自带的输入命令ditto解压:ditto -x -k /要解压的文件.zip /要保存的路径注意,文件一定要是带路径的,最好的方法是输入ditto -x -k后拖拽文
2022-05-13 15:01:13 2074
原创 Flink内核源码解析(出自B站尚硅谷)
文章目录任务提交流程本套教程针对Flink 1.12.0版本的核心模块进行源码级讲解,从任务提交流程、通讯过程、Task调度、内存模型四大方面入手,庖丁解牛逐行分析源码,手术刀级别剖析Flink内核架构!任务提交流程实例以yarn-per-job为例。flink提交作业是通过flink run进行提交的,可以从提交脚本中看到启动类即程序的入口是:org.apache.flink.client.cli.CliFrontend查看其中的main方法,执行的逻辑简单总结如下:获取flink的c
2022-05-06 00:04:46 6291
转载 Flink 非对齐 Checkpoint 执行流程详解(转)
文章目录当前 Checkpoint 机制简述Checkpoint 与反压的耦合Unaligned Checkpoint总结作为 Flink 最基础也是最关键的容错机制,Checkpoint 快照机制很好地保证了 Flink 应用从异常状态恢复后的数据准确性。同时 Checkpoint 相关的 metrics 也是诊断 Flink 应用健康状态最为重要的指标,成功且耗时较短的 Checkpoint 表明作业运行状况良好,没有异常或反压。然而,由于 Checkpoint 与反压的耦合,反压反过来也会作用于
2022-05-04 00:42:02 1663 3
转载 1w 字详解 Flink 双流 join 的 3 种解决及优化方案(转)
文章目录1 引子1.1 数据库SQL中的JOIN1.2 离线场景下的JOIN2 实时场景下的JOIN2.1 方案思路3 Flink的双流JOIN3.1 内部运行机制3.2 JOIN实现机制4 基于Window Join的双流JOIN实现机制4.1 join算子4.2 coGroup算子5 基于Interval Join的双流JOIN实现机制6 基于Connect的双流JOIN实现机制6.1 Connect算子原理6.2 技术实现7 双流JOIN的优化与总结如何保证Flink双流Join准确性和及时性、
2022-05-03 21:37:06 3000
转载 万字详解 Hive 查询的 18 种方式(转)
文章目录前言准备1、SELECT查询语句2、WHERE 条件语句3、GROUP BY 语句4、HAVING语句5、INNER JOIN语句6、 LEFT OUTER JOIN语句7、RIGHT OUTER JOIN语句8、FULL OUTER JOIN语句9、 LEFT SEMI JOIN语句10、笛卡尔积 JOIN 语句11、map-side JOIN语句12、多表JOIN语句13、ORDER BY 和 SORT BY 语句14、 DISTRIBUTE BY 和 SORT BY语句15、CLUSTER B
2022-05-03 11:42:13 1276
转载 Hive 核心知识点灵魂 16 问(转)
文章目录1. 请谈一下 Hive 的特点2. Hive 底层与数据库交互原理?3. Hive 的 HSQL 转换为 MapReduce 的过程?4. Hive 的两张表关联,使用 MapReduce 怎么实现?5. 请说明 hive 中 Sort By,Order By,Cluster By,Distrbute By 各代表什么意思?6. 写出 hive 中 split、coalesce 及 collect_list 函数的用法(可举例)?7. Hive 有哪些方式保存元数据,各有哪些特点?8. 内部表和外
2022-05-03 00:49:04 355
转载 1w 字详述 Flink CDC 打通数据实时入湖(转)
文章目录01 Flink CDC介绍02 Apache Iceberg介绍03Flink CDC打通数据实时导入Iceberg实践3.1 数据入湖环境准备3.2 数据入湖速度测试3.3 数据入湖任务运维3.4 数据入湖问题讨论04未来规划4.1 整合Iceberg到实时计算平台4.2 准实时数仓探索在构建实时数仓的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术,来解决业务数据实时入湖相关的问题。01 Fli
2022-05-01 14:20:40 1052
转载 Flink 对线面试官(五):2w 字详述双流 Join 3 种解决方案 + 2 种优化方案
文章目录1.前言2.Join 的应用场景3.为什么流式计算中提到 Join 小伙伴萌就怕呢?4.带大家看一遍本文思路5.Flink Join 解决方案:Flink Window Join5.1.解决方案说明5.2.解决方案 Flink APISQL API(Flink 1.14 版本 Window TVF 中支持):5.3.解决方案的特点5.4.解决方案的适用场景6.Flink Join 解决方案:Flink Interval Join6.1.解决方案说明6.2.解决方案 Flink API6.3.解决方案
2022-04-30 23:46:30 672
转载 详解 Flink 状态管理
文章目录1.前言2.状态是什么东西?有了状态能做什么?3.为什么离线计算中不提状态,实时计算老是提到状态这个概念?状态到底在实时计算中解决了什么问题?3.1 离线任务真的是没有状态、状态管理这些个概念这个概念嘛?3.2 实时任务真的只能依赖状态、状态管理嘛?4.有了状态、为什么又出现了状态管理的概念?5.怎么学习 Flink 中的状态、状态管理相关的概念呢?6.Flink 中状态的分类?7.Flink 中状态的使用方式?8.Flink 状态后端的分类及使用建议?9.Flink 中状态的能力扩展 - TTL?
2022-04-29 00:24:21 1354
原创 如何监控和诊断JVM堆内和堆外内存使用?
文章目录典型回答了解 JVM 内存的方法有很多,具体能力范围也有区别,简单总结如下:可以使用综合性的图形化工具,如 JConsole、VisualVM(注意,从 Oracle JDK 9 开始,VisualVM 已经不再包含在 JDK 安装包中)等。这些工具具体使用起来相对比较直观,直接连接到 Java 进程,然后就可以在图形化界面里掌握内存使用情况。以 JConsole 为例,其内存页面可以显示常见的堆内存和各种堆外部分使用状态。也可以使用命令行工具进行运行时查询,如 jstat 和 jm
2022-03-27 20:13:50 1256
转载 Java锁Monitor-通过openjdk源码分析ObjectMonitor底层实现
文章目录在我们分析synchronized关键字底层信息时,其中谈到了Monitor对象,它是由C++来实现的,那,到底它长啥样呢?我们在编写同步代码时完全木有看到该对象的存在,所以这次打算真正来瞅一下它的真正面目,而对于这个Hospot代码JDK是并没有开源的,但是社区版本的JDK是开源了,在openjdk上可以阅读得到,所以下面先到openjdk上瞅一下:所以点击一下它:点击一下:然后点击左侧的browser方便我们浏览代码:然后定位到这个路径:然后点击runtime/,其中
2022-03-27 19:47:48 639
转载 一文搞懂 Hadoop 生态系统的组件(转)
文章目录01Hadoop概述02Hadoop生态圈03Hadoop的优缺点导读:Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,目前由Apache软件基金会管理。通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力执行高速运算和存储。简单地说,Hadoop是一个平台,在它之上可以更容易地开发和运行处理大规模数据的软件。01Hadoop概述Hadoop体系也是一个计算框架,在这个框架下,可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理
2022-03-13 21:45:59 5020
大数据入门指南v1.0
2020-10-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人