- 博客(16)
- 资源 (1)
- 收藏
- 关注
原创 Apache Paimon-流数据湖
1、统一批处理和流处理:Paimon支持批写和批读,以及流式写更改和流式读表更改日志。2、数据湖:Paimon具有成本低、可靠性高、元数据可扩展等优点,具有数据湖存储的所有优势。3、合并引擎:Paimon支持丰富的合并引擎。缺省情况下,保留主键的最后一项记录,可以“部分更新”或“聚合”。4、变更日志生成:Paimon支持丰富的Changelog producer例如“lookup”和“full-compaction”,可以从任何数据源生成正确且完整的变更日志从而简化流管道的构建。
2024-10-16 09:46:10 795
原创 Apache Calcite原理解析(3)--解析层
Calcite中,JavaCC 的依赖已经被封装到 calcite-core 模块当中,如果使用 Maven 作为依赖管理工具,只需要添加对应的calcite-core模块坐标即可。在代码中,可以直接使用 Calcite 的 SqlParser 接口调用对应的语法解析流程,对相关的 SQL 语句进行解析。// SQL语句// 解析配置// 创建解析器// 解析SQL语句Load操作时将数据从一种数据源导入另一种数据源中,Load操作采用的语法模板如下。
2024-09-22 19:36:45 949
原创 Apache Calcite原理解析(2):Avatica服务层
Calcite接受请求的第一站是服务层组件–Avatica ,Avatica是 Apache Calcite 的一个子项目,支持通过 HTTP 协议进行数据库操作。1、接受客户端的SQL请求;2、校验提交用户的配置信息(用户名和密码、权限校验);3、将SQL请求转发给Calcite-core模块;4、封装结果请求并返回;
2024-09-22 18:34:13 253
原创 Calcite实现方言转换
Calcite能够通过解析Sql为SqlNode,再将SqlNode转化为特定数据库的方言的形式实现Sql的统一。我们知道,Calcite一般会有四个阶段:parse、validate、optimize和execute。其中,在parse和validate阶段,会生成一个parse tree,树中的节点都是SqlNode的类型。在optimize节点,Calcite会将parse tree转换为RelNode,同时进行一些优化,这属于logical plan。
2024-09-11 18:47:28 550
转载 Java中IO框架
Selector用于监听多个通道的事件,来通知连接打开,数据到达等操作,一个线程可以监听多个数据通道。),传入file descriptor和事件(readable、writable等)让kernel监测,当其中一个或多个fd数据就绪,就会返回结果,程序再发起真正的I/O操作(resvfrom());的IO状况,也就是说,利用Selector可使一个单独的线程管理多个Channel,其中在Win系统里面Selector默认的是Select函数,Linux默认的是epoll函数。进程发起真正的IO操作。
2024-09-01 21:40:13 204
转载 JVM知识体系
新生代收集(Minor GC/Young GC):只是新生代的垃圾收集;老年代收集(Major GC/Old GC):只是老年代的垃圾收集 目前,只有 CMS GC 会有单独收集老年代的行为;整堆收集(Full GC):收集整个 Java 堆和方法区的垃圾;通常情况下,我们都是直接使用系统类加载器。但是,有的时候,我们也需要自定义类加载器。比如应用是通过网络来传输 Java 类的字节码,为保证安全性,这些字节码经过了加密处理,这时系统类加载器就无法对其进行加载,这样则需要自定义类加载器来实现。
2024-08-29 16:46:27 31
转载 HiveSQL操作
文章目录1、SQL语言类型2、Hive的DDL操作:2.1、创建表:2.2、插入数据:2.3、修改表:2.4、删除表2.5 分区2.6分桶2.7、总结3、Hive表的DQL4、Hive中的内置函数4.1、字符串处理相关4.2、JSON字符串解析4.3、聚合函数4.4、数据类型转化CAST5、Hive中的视图和索引5.1、视图5.2、索引6、Hive的日期函数时间函数6.1、Hive的日期函数6.2、时间戳和日期格式互转7、Hive函数01-日期函数时间函数8、Hive函数02-分析函数(开窗函数、窗口函数)
2021-08-18 17:03:37 642
原创 大数据开发面试题(不断更新)
1、Hadoop2、Hbase在Hbase的基础架构中,zookeeper起到什么作用?Hbase基础列式存储的有点是什么?
2021-06-28 15:18:41 204
原创 flume 写入hdfs 采用lzo格式压缩,出现压缩格式支持错误
使用Flume消费kafka中数据,sink到hdfs中出现数据压缩格式支持错误;报错如下:error during configurationjava.lang.IllegalArgumentException: Unsupported compression codec Lzop. Please choose from: [None, BZip2Codec, DefaultCodec, DeflateCodec, GzipCodec, Lz4Codec, SnappyCodec]at org.
2021-06-21 19:18:34 1148 1
原创 rsync和xsync文件同步命令的安装和部署
xsync命令是自己编写文件同步命令shell脚本,其中调用的是rsync命令1、rsync的安装每台机器都需要运行下面的命令:安装:yum install rsync;启动服务以及开机自启动:systemctl start rsyncd.servicesystemctl enable rsyncd.service2、编写xsync脚本2.1、首先执行:echo $PATH我这里直接使用的是root用户所以在/root/bin下的脚本可以在任意位置执行,所以编写的xs.
2021-06-16 19:11:06 2393
原创 Linux执行shell脚本执行远程命令出现bash:java:command not found问题
文章目录1、Linux环境中Java环境没配置2、Linux环境变量配置文件的问题1、Linux环境中Java环境没配置 所使用的的Linux的java任然是系统自带的java版本,更多细节自行百度;2、Linux环境变量配置文件的问题 通常我们在配置安装java的时候,...
2021-06-16 15:25:15 1435
原创 数据仓库-Hive
目录1、数据仓库1.1、数据仓库基本概念1.2、数据仓库主要特征1.2.1、面向主题1.2.2、集成性1.2.3、非易失的1.2.4、时变性1.3、数据库与数据仓库1.4、数据仓库的分层架构数据仓库分层原因:1.5、数据仓库的元数据管理2、Hive基本概念2.1、Hive简介2.2、Hive架构2.3、Hive的交互方式第一种交互方式 :bin/hive第二种交互方式:使用SQL语句或者SQL脚本进行交互3、Hive的基本操作1、数据仓库1.1、数据仓库基本概念 &n
2021-05-12 14:37:24 217
原创 Hadoop详解-MapReduce-02
目录1、MapReduce介绍2、MapReduce编程规范Map 阶段 2 个步骤:Shle 阶段 4 个步骤:Reduce 阶段 2 个步骤:2.2、单词计数案例2.3、分区Partition2.4、MapReduce排序和序列化2.4.2、小案例2.5、Partition分区2.6、规约Combiner2.6.1、概念2.6.2、实现3、MapReduce运行机制3.1、MapTask工作机制整个Map阶段流程大体:3.2、ReduceTask工作机制3.3、Shuffle过程4、MapReduce案
2021-05-06 15:02:41 612
原创 Hadoop详解-HDFS-01
目录1、Hadoop集群搭建1.1、为什么在安装Hadoop集群之前需要重新编译?1.2、Hadoop 2.X版本的架构模型架构一(单节点架构):文件系统核心模块1、HDSF文件存储系统中核心组件:2、Yarn资源调度系统(也叫做数据计算核心模块)中:架构二(高可用架构):文件系统核心模块1、HDSF文件存储系统中核心组件:1.3、Hadoop集群搭建1、core-site.xml2、hdfs-site.xml3、hadoop-env.sh4、mapred.site.xml5、yarn-site.xml6、
2021-05-06 11:21:45 172
原创 Zookeeper分布式一致性与实践
目录1、Zookeeper概述1.1、Zookeeper的设计目标1.2、Zookeeper在保证分布式一致性时,具有以下五点特性:1.3、Zookeeper中的基本概念1.4、Zookeeper中的ZAB协议1.4.1、协议中的两种基本模式(后续有机会遇到再说吧)2、Zookeeper常规操作2.1、Zookeeper运行环境2.2、客户端脚本的shell操作2.3、Zookeeper原生JavaAPI操作2.4、开源客户端zkClient操作2.5、开源客户端Curator操作(1)环境搭建(pom.x
2021-05-06 11:05:44 840
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人