数据湖
文章平均质量分 82
白眼黑刺猬
技术分享 ,线上线下授课
微信 17710299606
展开
-
[数据湖iceberg]-hive集成数据湖读取数据的正确姿势
Iceberg作为一种表格式管理规范,其数据分为元数据和表数据。元数据和表数据独立存储,元数据目前支持存储在本地文件系统、HMS、Hadoop、JDBC数据库、AWS Glue和自定义存储。表数据支持本地文件系统、HDFS、S3、MinIO、OBS、OSS等。元数据存储基于HMS比较广泛,在这篇文章中,表数据存储基于MinIO、元数据存储主要基于HMS。原创 2024-03-13 12:48:14 · 825 阅读 · 0 评论 -
Docker安装RocketMQ-YASG
1. rocketmq的部署架构。1. rocketmq的部署架构。RocketMQ 网络部署特点。2. 安装NameServer。3. 安装broker。原创 2022-11-20 23:31:10 · 391 阅读 · 1 评论 -
数据湖探索与实践
01数据仓库平台建设的痛点痛点一:我们凌晨一些大的离线任务经常会因为一些原因出现延迟,这种延迟会导致核心报表的产出时间不稳定,有些时候会产出比较早,但是有时候就可能会产出比较晚,业务很难接受。为什么会出现这种现象的发生呢?目前来看大致有这么几点要素: 任务本身要请求的数据量会特别大。通常来说一天原始的数据量可能在几十TB。几百个分区,甚至上千个分区,五万+的文件数这样子。如果说全量读取这些文件的话,几百个分区就会向NameNode发送几百次请求,我们知道离线任务在凌晨运行的时候,N原创 2021-05-06 13:58:25 · 482 阅读 · 0 评论 -
深度理解mysql索引
Mysql 作为互联网中非常热门的数据库,其底层的存储引擎和数据检索引擎的设计非常重要,尤其是 Mysql 数据的存储形式以及索引的设计,决定了 Mysql 整体的数据检索性能。我们知道,索引的作用是做数据的快速检索,而快速检索的实现的本质是数据结构。通过不同数据结构的选择,实现各种数据快速检索。在数据库中,高效的查找算法是非常重要的,因为数据库中存储了大量数据,一个高效的索引能节省巨大的时间。比如下面这个数据表,如果 Mysql 没有实现索引算法,那么查找 id=7 这个数据,那么只能采取暴力顺序遍历原创 2021-01-02 12:33:23 · 265 阅读 · 0 评论 -
数据湖之iceberg系列(五)-Spark实时处理数据
1 接收网络数据 将数据实时写入到iceberg表中开启nc 服务用于模拟数据输出nc -lk 99992 spark实时读取数据将数据写入到iceberg表中// 获取spark对象 val spark = SparkSession.builder() .config("spark.sql.catalog.hadoop_prod.type", "hadoop") // 设置数据源类别为hadoop .config("spark.sql.cat.原创 2020-12-05 16:21:06 · 1786 阅读 · 0 评论 -
数据湖之iceberg系列(五)-hive处理iceberg中的数据
1 将iceberg-hive-runtime-0.10.0.jar包添加到hive的lib包下 , 或者是在客户端使用add jar 添加到项目中2 设置参数 / 或者在hive-site.xml中设置3 读取catalog为hadoop的表中的数据 , 需要完成hive表和hadoop表的映射SET engine.hive.enabled=true; SET iceberg.engine.hive.enabled=true ;CREATE EXTERNAL TABLE tb...原创 2020-12-05 14:00:13 · 5384 阅读 · 0 评论 -
数据湖之iceberg系列(四)iceberg-spark编程
1 创建maven项目 添加依赖<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <scala.version>2.12.12</scala.version> <spark原创 2020-12-02 17:58:13 · 2412 阅读 · 2 评论 -
数据湖之iceberg系列(三)iceberg快速入门
1 环境准备准备大数据集群 .安装HDFS ,HIVE,SAPRK ,FLINK 下载运行集群环境运行是需要的jar包下载地址:http://iceberg.apache.org/releases/2 spark将数据写到iceberg中准备spark集群, 并配置iceberg环境在spark的配置目录中添加hadoop和hive的配置文件 方便spark与hadoop和hive整合在spark的jars包中添加下载好的iceberg的jar包2.1 ca原创 2020-12-01 21:45:05 · 7778 阅读 · 3 评论 -
数据湖之iceberg系列(一)iceberg能做什么
全网最全的iceberg教程原创 2020-11-27 14:21:07 · 4147 阅读 · 0 评论