数据湖
文章平均质量分 66
本专栏主要介绍本人对于数据湖及其相关开源组件的学习,有什么不正确的地方,欢迎指点
绝域时空
这个作者很懒,什么都没留下…
展开
-
SparkSQL操作hudi
文章目录SparkSQL操作hudi1、登录2、创建普通表3、创建分区表4、从现有表创建表5、用查询结果创建新表(CTAS)6、插入数据7、查询数据8、修改数据9、合并数据10、删除数据11、覆盖写入12、修改数据表13、hudi分区命令SparkSQL操作hudi1、登录#spark 3.1spark-sql --packages org.apache.hudi:hudi-spark3.1.2-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:原创 2022-02-05 10:40:41 · 3411 阅读 · 0 评论 -
Scala操作hudi
文章目录Scala操作hudi1、启动客户端2、配置信息3、 创建数据表4、插入数据5、查询数据6、更新数据7、增量查询8、时间点查询9、删除数据10、覆盖写入Scala操作hudi1、启动客户端//spark3.1spark-shell \ --packages org.apache.hudi:hudi-spark3.1.2-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:3.1.2 \ --conf 'spark.serialize原创 2022-02-05 10:39:01 · 788 阅读 · 0 评论 -
Hudi的编译安装
文章目录hudi搭建1、下载maven安装包2.解压并配置环境变量1.解压安装包2.配置环境变量3、maven仓库配置1.打开文件2.输入以下内容4、验证maven仓库是否配置完成5、编译打包hudi1.解压文件2.配置相关配置信息3.编译hudi搭建对于hudi的安装,我们需要自己下载包进行编译。hudi下载地址Index of /dist/hudi (apache.org) ,下面是hudi编译的详细步骤:1、下载maven安装包maven下载地址为:https://maven.apache.o原创 2022-02-05 10:37:27 · 2081 阅读 · 0 评论 -
Hudi基本概念
文章目录Hudi基本概念1、时间轴2、文件组织3、存储类型和视图1.存储类型2.视图4、写时复制存储5、读时合并存储Hudi基本概念Apache Hudi(发音为“Hudi”)在DFS的数据集上提供以下流原语插入更新 (如何改变数据集?)增量拉取 (如何获取变更的数据?)在本节中,我们将讨论重要的概念和术语,这些概念和术语有助于理解并有效使用这些原语。1、时间轴在它的核心,Hudi维护一条包含在不同的即时时间所有对数据集操作的时间轴,从而提供,从不同时间点出发得到不同的视图下的数据集。Hu原创 2022-02-05 10:35:40 · 547 阅读 · 0 评论 -
数据湖及其相关概念
一、数据湖定义下面是维基百科对于数据的定义:其,大概的意思就是将没有经过清洗的等操作的原生数据,将这些数据进行相关数据的存储,这些数据可以运用于计算机视觉,大数据分析甚至机器的数据支撑。数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。 目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。数据湖能处理所有类型的数据,如结构化数据,非结构化数据,半原创 2021-12-08 19:18:44 · 1902 阅读 · 0 评论