自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(157)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark Client 配置

记录Spark Client 配置,这里的 Spark Client 和 HDFS、YARN 不在一个节点,只是一个单节点的 Spark Client,需要能连接其他节点的大数据集群的 Hive 和 能提交到Yarn。

2024-05-18 15:23:51 76

原创 集群管理命令总结

clush和pssh,这俩命令都可以在多台服务器上并发执行相同命令,其中个人比较推荐clush,因为感觉clush比较好用,本文来总结一下clush和pssh的安装配置和使用。clush和pssh的安装和使用方式,给出部分使用示例,并记录了 Python2 和 Python3 分别遇到的问题以及解决过程。

2024-04-15 07:00:00 960

原创 Spark Standalone 集群配置

平时工作中主要用 YARN 模式,最近进行TPC测试用到了 Standalone 模式,便记录总结一下 Standalone 集群相关的配置。

2024-02-07 16:35:51 462

原创 Flink 日志总结

总结一下 Flink 项目代码打印日志的配置。

2023-12-25 08:22:11 1186

原创 Flink源码分析 | 读取HBase配置

上面文章中总结了Flink 获取 HBase 配置的逻辑和优先级,但是并没有对源码进行分析,本文主要是补充这一部分的源码分析。

2023-12-18 19:51:32 1054

原创 Flink 读写 HBase 总结

总结 Flink 读写 HBase本文总结了Flink SQL 读写 HBase 的参数配置,解决了在kerberos环境下因 hudi 包 hbase-site.xml 配置冲突引起的异常,学习总结了 Flink SQL 读写 HBase 时加载 HBase 配置的优先级,但是没有详细的分析源码中的逻辑,可能会在后面的文章中补充相关的源码分析~

2023-12-09 09:45:56 1406

原创 Hudi Flink SQL源码调试学习(二)- Transformation/StreamOperator总结 - StreamGraph和JobGraph的生成过程

和上篇文章Hudi Flink SQL源码调试学习(一)一样:本着学习hudi-flink源码的目的,利用之前总结的文章中的代码进行调试,记录调试学习过程中主要的步骤及对应源码片段。本文主要总结 Flink 的, 写Hudi与的关系以及Hudi有哪些自定义的,还有Flink的四层执行图以及和JobGraph的生成构建过程。DummySink。

2023-08-29 09:10:53 185

原创 记录几个Hudi Flink使用问题及解决方法

如题,记录几个Hudi Flink使用问题,学习和使用Hudi Flink有一段时间,虽然目前用的还不够深入,但是目前也遇到了几个问题,现在将遇到的这几个问题以及解决方式记录一下。

2023-08-21 16:52:59 723

原创 Hudi Flink SQL源码调试学习(一)

本着学习hudi-flink源码的目的,利用之前总结的文章Hudi Flink SQL代码示例及本地调试中的代码进行调试,记录调试学习过程中主要的步骤及对应源码片段。本文主要简单记录了自己调试 Hudi Flink SQL 源码的过程,并没有对源码进行深入的分析(自己水平也不够)。主要目的是为了弄清楚从Table API的入口到返回的主要代码步骤以及在哪里调用的的的方法体以进行后面的写Hudi逻辑,这样便于后面对Hudi源码的分析和学习。本文新学习知识点:函数式接口以及对应的 Lambda 表达式的实现。

2023-07-31 20:00:05 1023

原创 Flink 读写Kafka总结

总结Flink读写Kafka。

2023-07-05 14:59:15 1886

原创 Hudi Flink SQL代码示例及本地调试

之前在Flink Hudi DataStream API代码示例中总结了Hudi Flink DataStream API的代码及本地调试,并且在文中提到其实大家用Table API更多一些,但是我感觉Table API调试源码可能会比较难一点,因为可能会涉及到SQL解析,不清楚Table API的入口在哪里。但是在我总结的上篇文章Flink用户自定义连接器(Table API Connectors)学习总结。

2023-05-30 08:47:29 1077 2

原创 Flink Hudi DataStream API代码示例

总结Flink通过DataStream API读写Hudi Demo示例,主要是自己备忘用。最开始学习Flink时都是使用Flink SQL,所以对于Flink SQL读写Hudi比较熟悉。但是对于写代码实现并不熟悉,而有些需求是基于Flink代码实现的,所以需要学习总结一下。仅为了实现用代码读写Hudi的需求,其实有两种方式,一种是在代码里通过Flink SQL API,也就是代码中执行Flink SQL,这种方式其实和通过SQL实现差不多,另一种方式是通过DataStream API实现。

2023-05-22 10:47:19 1385 5

原创 Flink MySQL CDC 使用总结

学习总结Flink MySQL CDC,主要目的是同步MySQL数据至其他数据源如Hudi、MySQL等,本文主要以 MySQL2Hudi、MySQL2MySQL两个场景进行示例验证。

2023-04-03 19:15:12 3466 4

原创 Flink SQL Checkpoint 学习总结

学习总结Flink SQL Checkpoint的使用,主要目的是为了验证Flink SQL流式任务挂掉后,重启时还可以继续从上次的运行状态恢复。对于flink sql读取mysql,设置checkpoint恢复不生效(不是flink cdc)checkpoint 一个时间间隔内只有一个批次,这样才能保证eos,时间间隔大小影响写入性能。

2023-03-03 14:31:16 5246

原创 Flink SQL增量查询Hudi表

前面总结了Spark SQL增量查询Hudi表和Hive增量查询Hudi表。最近项目上也有Flink SQL增量查询Hudi表的需求,正好学习总结一下。地址:https://hudi.apache.org/cn/docs/querying_data#incremental-query用show_commits看一下有哪些commits(这里查询用的是Hudi的master,因为show_commits是在0.11.0版本开始支持的,也可以通过使用hadoop命令查看.hoodie文件夹下的.commit文

2022-12-08 07:00:00 3212 41

原创 Spark SQL增量查询Hudi表

Hive增量查询Hudi表。最近可能会有Spark SQL增量查询Hudi表的需求,并且我发现目前用纯Spark SQL的形式还不能直接增量查询Hudi表,于是进行学习总结一下。本文总结了Spark SQL增量查询Hudi表的一些参数设置,并给出了示例,介绍了使用纯Spark SQL实现增量查询Hudi表的几种方式,不确定未来社区会采用哪种方式,大家目前如果有这种需求的话,可以先选择一种自己喜欢的方式,等未来社区版本支持后,再升级版本。

2022-12-01 08:07:23 5138 59

原创 Flink SQL操作Hudi并同步Hive使用总结

记录总结自己第一次如何使用Flink SQL读写Hudi并同步Hive,以及遇到的问题及解决过程。关于Flink SQL客户端如何使用可以参考:Flink SQL 客户端查询Hive配置及问题解决Flink 1.14.3Hudi 0.12.0/0.12.1本文采用Flink yarn-session模式,不会的可以参考之前的文章。下载地址:https://repo1.maven.org/maven2/org/apache/hudi/hudi-flink1.14-bundle/0.12.1/hudi-fli

2022-11-01 07:00:00 7252 129

原创 Hudi Spark SQL总结

前言总结Hudi Spark SQL的使用,本人仍然以Hudi0.9.0版本为例,也会稍微提及最新版的一些改动。Hudi 从0.9.0版本开始支持Spark SQL,是由阿里的pengzhiwei同学贡献的,pengzhiwei目前已不负责Hudi,改由同事YannByron负责,现在又有ForwardXu贡献了很多功能特性,目前好像主要由ForwardXu负责。三位都是大佬,都是Apache Hudi Committer,膜拜大佬,向大佬学习!!!大佬的github:彭志伟(阿里) pengzhi

2022-05-18 20:39:38 1445 32

原创 Linux 安裝 rpm包

Linux 安裝 rpm包。

2024-05-10 09:43:04 187

原创 Hive 表添加列(新增字段)

记录总结一下 Hive 表如何添加新的字段以及遇到的问题。最初是因为要验证 Hudi Schema Evolution 中的增加字段问题more对于某些文件类型,如ORC不存在该问题,而对于 Parquet、Text ,只有在已有分区下插入数据是,新增字段查询才为 NULL, 新增的分区正常。

2024-04-23 07:00:00 835

原创 QQ 截图工具独立版安装使用

之前截图一直使用的QQ截图,相比于微信截图,QQ截图还支持长截图,总体来说,QQ截图是我使用过的最好的截图工具。但是现在公司不让用微信、QQ、钉钉等通讯软件,要求使用公司自研的通讯软件,这样就不能使用QQ截图了。尝试使用Windows10自带的截图(win+shift+s)和 公司自研通讯软件中的截图功能都不好使,于是网上查了一下,发现有 QQ 截图工具独立版,不需要安装和登录QQ,就可以使用QQ截图,功能和使用方式(快捷键)都一样。

2024-03-18 10:52:57 436 2

原创 Linux 批量添加 known_hosts

我们在做完linux ssh 免密登录后,通常会执行一些自动化任务(比如启动Spark集群),也就是需要ssh到每台节点执行相同命令。但是有一个问题就是如果 known_hosts 文件中不存在这个ip的话,在第一次连接时会弹出确认公钥的提示,需要手动输入 yes,才能继续往下进行。输入yes 后会将公钥添加到 .ssh/known_hosts 中,下次连接时就不需要再次确认了。但是如果节点比较多的话,假如有100个节点,那么我们需要手动输入100次 yes 比较麻烦。

2024-01-17 09:05:35 1384

原创 仿宋-GB2312字体

重新打开Word正常情况下字体就有了。如果此时在Word文档内还没出现这个字体的话,大家可以重启电脑再查看一下。

2024-01-09 08:59:57 699

转载 Flink 源码阅读笔记(3)- Flink 底层RPC框架分析

对于Flink中各个组件(JobMaster、TaskManager、Dispatcher等),其底层RPC框架基于Akka实现,本文着重分析Flink中的Rpc框架实现机制及梳理其通信流程。由于Flink底层Rpc是基于Akka实现,我们先了解下Akka的基本使用。Akka是一个开发并发、容错和可伸缩应用的框架。它是的一个实现,和Erlang的并发模型很像。在Actor模型中,所有的实体被认为是独立的actors。actors和其他actors通过发送异步消息通信。Actor模型的强大来自于异步。

2023-12-09 09:40:57 57

转载 Flink 源码阅读笔记(1)- StreamGraph 的生成

Flink 源码阅读笔记(1)- StreamGraph 的生成StreamGraph 的生成

2023-08-25 15:41:58 135

原创 Flink用户自定义连接器(Table API Connectors)学习总结

结合官网文档和自定义实现一个,来学习总结Flink用户自定义连接器(Table API Connectors)。实心箭头展示了在转换过程中对象如何从一个阶段到下一个阶段转换为其他对象。需要实现 org.apache.flink.table.factories.DynamicTableSourceFactory 接口完成一个工厂类,来生产 DynamicTableSource 类。. . .

2023-05-24 11:36:44 1925 3

原创 Linux安装MongoDB数据库并内网穿透在外远程访问

MongoDB是一个基于分布式文件存储的数据库。由 C++ 语言编写,旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。它最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。本次教程我们将在Linux centos服务器上安装部署Mongodb数据库,同时使用cpolar进行内网穿透,实现即使在外也可以远程连接访问Mongodb数据库。

2023-05-23 12:48:14 1303 8

原创 Hudi Spark SQL Call Procedures学习总结(一)(查询统计表文件信息)

学习总结Hudi Spark SQL Call Procedures,Call Procedures在官网被称作存储过程(Stored Procedures),它是在Hudi 0.11.0版本由腾讯的ForwardXu大佬贡献的,它除了官网提到的几个Procedures外,还支持其他许多Procedures命令。本文先学习其中的几个我觉得比较常用的命令,主要是查询统计表路径下的各种文件信息。

2022-11-25 07:00:00 2053 38

原创 Hudi源码 | Insert源码分析总结(二)(WorkloadProfile)

Hudi源码 | Insert源码分析总结(一)(整体流程),继续进行Apache Hudi Insert源码分析总结,本文主要分析上文提到的关于的分析一共就这么多,主要是统计record中每个分区路径对应的insert/upsert数量以及upsert数据对应的fileId和,先持久化到.inflight文件中,然后给后面的使用。关于统计的这些信息是如何在中使用的,我们放在下篇文章中分析。

2022-11-17 07:00:00 3033 81

原创 Hudi源码|Insert源码分析总结(一)(整体流程)

Hudi Java Client总结|读取Hive写Hudi代码示例。以Java Client为例的原因:1、自己生产上用的Java Client,相比于Spark客户端更熟悉一点。2、Java Client和Spark、Flink客户端核心逻辑是一样的。不同的是比如Spark的入口是DF和SQL,多了一层API封装。3、Java Client更贴近源码,可以直接分析核心逻辑。不用剖析Spark、Flink源码。对Sprk、Flink源码不熟悉的更容易上手。

2022-11-11 07:00:00 3620 104

原创 Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表(强烈推荐这种方式)

上篇文章Flink SQL操作Hudi并同步Hive使用总结总结了如何使用Flink SQL读写Hudi并同步Hive,介绍了创建表的各种方式,但是每一种方式都不太完美。本文介绍一种比较完美的方式,通过Hudi HMS Catalog读写Hudi并同步Hive表,这里的Hudi HMS Catalog实际上就是通过上篇文章最后提到的。

2022-11-03 07:00:00 3912 76

原创 Hudi master 0.13.0-SNAPSHOT Win10 打包异常解决

我一直是在Win10本地编译Hudi包的,因为这样可以直接在IDEA里修改并调试源码,但是前段时间打包Hudi master代码时,发现在Win10 本地打包出现了异常,原因是因为这个PR:[https://github.com/apache/hudi/pull/6135](https://github.com/apache/hudi/pull/6135) 引入了proto,需要使用protoc编译`.proto`文件,使用的是maven的protoc-jar-maven-plugin,但是通过maven下

2022-11-03 06:45:00 1240 32

原创 Hudi Java Client总结|读取Hive写Hudi代码示例

Hudi除了支持Spark、Fink写Hudi外,还支持Java客户端。本文总结Hudi Java Client如何使用,主要为代码示例,可以实现读取Hive表写Hudi表。当然也支持读取其他数据源,比如mysql,实现读取mysql的历史数据和增量数据写Hudi。

2022-10-27 16:43:54 4687 87

原创 开源经验分享 | 如何从一名小白成为Apache Hudi Contributor

参与Apache Hudi开源有一年多的时间了,马上1024了,虽然距离成为Apache Hudi Commiter还有很遥远的距离,但还是想跟大家分享一下自己的开源经验,讲一下自己如何从开源小白成为Apache Hudi Contributor的。

2022-10-22 21:20:24 3888 132

原创 Hudi源码|bootstrap源码分析总结(写Hudi)

利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表本文简单的对Hudi bootstrap的一些关键的源码逻辑进行了分析,希望能对大家有所帮助。限于精力及能力的原因,有些地方可能不够深入,或者不对的地方,还请大家多多指正,让我们共同进步。

2022-10-18 10:38:36 2922 134

原创 写Hudi异常:‘Not an Avro data file‘ 解决方法

记录写Hudi时的一个异常的解决方法,其实这个异常从去年就发现并找到解决方法了,而且已经提交到社区merge了,PR:[HUDI-2675] Fix the exception ‘Not an Avro data file’ when archive and clean。之所以现在又要总结这个异常的处理方法是因为:我们生产环境用的 Hudi0.9.0版本,且没有升级,因为升级Hudi版本可能会有不兼容的问题,需要测试,比较费时,所以目前还没有升级版本,而这个PR合入的版本为0.11.0,所以本文主要总结在0

2022-10-14 17:23:42 1584 20

原创 利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表

在最开始学习Hudi源码时,就发现了Hudi有一个Bootstrap功能,但是一直没用过,通过官网文档可知,它可以将现有的表件转化为Hudi表,而且有两种类型和,但是文档并不详细,比如这两种类型的区别具体是啥,支持哪些文件类型的源表。于是带着这些疑问来学习一下它是如何使用的以及源码原理的实现,这样可以更全面的了解Hudi。本文介绍了如何利用Hudi Bootstrap转化现有Hive表为Hudi表,提供了完整的代码示例,并分析了和。

2022-10-12 16:25:50 1683 20

原创 Flink 读写 Ceph S3入门学习总结

Flink 读写 Ceph S3入门学习总结

2022-10-01 14:19:12 1657 4

原创 Spark 读写 Ceph S3入门学习总结

主要总结了Spark读写Ceph S3文件的配置和代码示例,以及一些异常的解决方法,希望能对大家有所帮助。

2022-09-29 19:55:26 612 2

原创 Ceph分布式集群安装配置

记录Ceph分布式集群安装配置过程及问题解决。

2022-09-29 11:00:12 1265 2

QQ截图工具独立版-不需要安装QQ

不安装QQ、不登录QQ即可使用QQ截图工具 使用方法:1、下载文件之后先解压; 2、运行Init.bat 3、桌面会有一个图标,双击运行可以启动QQ截图; 4、在右下角拖盘有可以设置的地方

2024-02-18

flink-sql-connector-hbase-2.2-1.15.4.jar

flink 读写 hbase 添加参数 hbase.conf.dir,支持参数自定义hbase-site.xml

2023-12-08

Spark SQL增量查询Hudi表-Spark3.1.2-jar包

通过修改源码,支持set方式增量查询Hudi包

2022-11-30

kafka 权威指南

本书是关于Kafka 的全面教程,主要内容包括: Kafka 相对于其他消息队列系统的优点, 主要是它如何完美匹配大数据平台开发it羊解Kafka 内部设计:用Kafka 构建应用的最佳实践, 理解在生产中部署Kafka 的最佳方式:如何确保Kafka 集群的安全。 本书适合Java 开发人员、大数据平台开发人员以及对分布式系统感兴趣的读者阅读。 注:(文字版,可直接复制书上的文字)

2018-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除