数据仓库
文章平均质量分 97
IT小神
虽然不能成为技术大神,但也要与时俱进保持对于IT新技术的学习追求,一点点积累与自我总结,即使再小的帆也能远航
itxiaoshen博客
展开
-
新一代开源流数据湖平台Apache Paimon入门实操-下
上一篇对Apache Paimon有了基础了解,本身则主要通过实操方式进一步加深理解,具备沉淀后续投入使用的基础知识;进行数据插入和更新操作,基于批和流式多种查询方式如时间旅行和增量查询,并了解相关系统表的查看,最后MySQL和基于Kafka(通过Canal对MySQL数据库实现变更捕获)的CDC集成完整示例演示收尾。原创 2023-08-07 18:22:39 · 1280 阅读 · 0 评论 -
新一代开源流数据湖平台Apache Paimon入门实操-上
本篇介绍一个强大的流数据湖平台,Flink官方开创,发展速度迅速,先了解其基本定义、适用场景和原理,然后基于yarn方式部署和测试,最后通过Catalog管理、创建表和修改多个示例了解基本使用原创 2023-08-03 18:18:24 · 2902 阅读 · 0 评论 -
国产开源流批统一的数据同步工具Chunjun入门实战
前面我们学习过SeaTunnel这个优秀数据集成平台,今天再来研究一个与之相似开源产品ChunJun,原名为FlinkX其比SeaTunnel开源更早,本篇从了解其概况和特性;然后通过源码编译的方式部署,暂时先通过简单的Local和Standalone两种提交任务方式,通过几个示例一步步演示如何通过Json和SQL两种配置方式实现批流模式,如从MySQL数据源Sink写入HDFS、从Kafka数据源并通过关联ClickHouse表数据转换并最后Sink写入MySQL的使用。原创 2023-07-04 23:35:27 · 2051 阅读 · 0 评论 -
盘点数据仓库建设需要知道的那些事
数据管理知识体系之数据仓库为企业数据中台的关键部分,本篇先从数据建设规范入手,接着介绍数仓分层、主题域划分原则,表处理规范和命名规范,最后分析指标定义、指标构成和指标分类原创 2023-05-17 23:31:24 · 956 阅读 · 0 评论 -
开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-下
先通过Kylin对连接条件、维度和度量限制的示例弄清Kylin的使用注意事项,在此基础上研究Kylin查询引擎,并配置spark查询下压实现没有cube的查询;理解Cube的构建优化,通过官方提供RestAPI实现动态灵活查询和cube构建,最后通过集成JDBC的Java代码实现简单查询操作。原创 2023-02-11 00:10:20 · 1636 阅读 · 2 评论 -
开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-上
再下一城又一个实时多维交互式分析数仓利器,了解其特性和架构组成,进一步阐述相关概念和其生态圈;介绍作为开发测试最快捷方式的Docker单机部署;也基于Hadoop环境一步步部署最新v4.0.3二进制并解决遇到的问题,最后通过一个读取hive数据示例介绍kylin创建项目、选择数据源、创建Model、创建Cube、Cube的构建,全面认识kylin预计算查询的性能。原创 2023-02-09 23:40:34 · 1950 阅读 · 0 评论 -
大数据实时多维OLAP分析数据库Apache Druid入门分享-下
了解Apache Druid的基础概念后,本篇进一步研究其核心架构和核心设计原理部分,了解相关外部依赖,对其数据摄取和查询有一定认识,然后通过搭建分布式集群进一步理解其架构组成,最后用一个示例从HDFS将数据摄取到Druid并演示两种查询方式原创 2023-02-01 23:38:17 · 917 阅读 · 0 评论 -
大数据实时多维OLAP分析数据库Apache Druid入门分享-上
Apache Druid是⼀款针对海量数据进⾏⾼性能实时分析OLAP引擎的实时分析型数据库,本篇了解其特征和适用场景,并与其他框架横向对比;最后部署一个单机版演示本地文件摄取入库,并演示基于Json API本地查询和SQL两种查询方式。原创 2023-01-31 23:13:57 · 912 阅读 · 0 评论 -
实时采集MySQL数据之轻量工具Maxwell实操
一个用于企业应用支持实时增量采集和全量采集MySQL数据开源框架Maxwell,功能强于Canal,比Flink CDC更易用。本篇先了解其定义和原理,然后通过安装和环境准备,了解其启动的两种方式,最后实操演示几个maxwell在企业中常用的场景示例。原创 2022-12-19 23:14:09 · 2440 阅读 · 0 评论 -
可视化编排的数据集成和分发开源框架Nifi轻松入门-上
如何你正在为数据采集做技术选型,今天介绍一款功能极其强大性能也高且采用可视化编排的数据集成框架nifi可以列入选型范畴,是数仓开发的强大工具之一,只要使用后就能体会到其丰富的处理器和扩展性。先了解其特性、核心概念和架构,也支持分布式集群,了解常见处理器分类,最后通过源码安装并使用两个简单的处理器演示一个基础入门示例原创 2022-12-14 00:00:36 · 2014 阅读 · 0 评论 -
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-后续
Hudi集成Flink SQl编程示例实现从生成器表写入Hudi表,打包集群验证;然后通过Hudi Flink CDC实现采集MySQL binlog日志写入Kafka再入到hudi表的完整示例,了解Hudi Flink的基础调试只是,最后通过Hudi集成Hive实现Flink Hive Catalog双写同步Hive过程。原创 2022-12-03 00:27:56 · 1292 阅读 · 0 评论 -
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下
本篇演示了Hudi集成Spark的Scala编程示例,并一步步操作说明如何使用DeltaStreamer从Kafka里读取数据写入到Hudi表的HDFS中,接着集成Flink的环境准备,通过基于yarn-session的Flink的sql-client方式提交任务实现插入数据和流式读取数据,了解字节贡献的Bucket索引和Hudi Catalog。原创 2022-11-28 23:28:45 · 954 阅读 · 0 评论 -
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中
本篇详细描述hoodie数据读写流程,进一步加深对数据湖技术的理解。理论后转战集成Spark的使用,通过spark-shell和spark-sql实现hoodie的插入数据、查询数据、更新数据、删除数据、覆盖数据、时间旅行查询等示例,了解创建表、修改表结构、查询分区、删除分区基本用法,为进一步使用奠定基础。原创 2022-11-23 22:35:09 · 1763 阅读 · 0 评论 -
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-上
湖仓一体时代来临解决大数据企业发展过程Lambada、Kappa架构的诸多痛点,三大数据湖技术Iceberg、Hudi、Delta Lake发展迅速,本篇则以学习功能较为齐全Hudi 数据湖入手,了解其特性和使用场景,一步步操作编译安装Hudi最新版本0.12.1,并初步了解时间轴、文件布局、索引、表类型、查询类型核心概念。原创 2022-11-15 18:56:00 · 1016 阅读 · 0 评论 -
Hive数据仓库工具基本架构和入门部署详解
Hive是一个建立在Hadoop HDFS架构至上的数仓工具,管理元数据但本身不存储数据,本篇了解hive优缺点,进一步理解其组成部分和数据组织形式和Driver,最后通过部署最新版本3.1.3版本完成内嵌模式、本地metastore、远程hiveserver2和metastore打开进入hive使用的大门原创 2022-09-10 11:20:54 · 1541 阅读 · 0 评论 -
Seatunnel超高性能分布式数据集成平台使用体会
有Sqoop和DataX之类数据处理为何还要用Apache SeaTunnel,这就要得益于Apache SeaTunnel依赖Flink和Spark天然分布式处理数据的特性,前两者是单机同步数据不适于海量数据同步,以低代码方式用配置文件就可以启动Flink数据处理应用,本篇从基本概念和原理入手,并通过部署SeaTunnel演示了多个基于Flink的Source和Sink配置,基本掌握如何编写配置使用。............原创 2022-08-27 00:34:13 · 7282 阅读 · 0 评论 -
数仓选型必列入考虑的OLAP列式数据库ClickHouse(中)
ELK作为老一代日志分析技术栈非常成熟,可以说是最为流行的大数据日志和搜索解决方案,而新一代日志监控选型以MPP架构为主如ClickHouse、StarRocks特别是近年来对ELK地位发起较大的挑战,不乏有许多的大公司如携程,快手已开始把自己的日志解决方案从 ES 迁移到了Clickhouse,本篇将以一个完整实际日志采集的场景进一步打开Clickhouse的技术大门原创 2022-05-22 02:29:00 · 879 阅读 · 0 评论 -
数仓选型必列入考虑的OLAP列式数据库ClickHouse(上)
又多一款数仓选型,虽然ClickHouse从性能上比不上前面的StarRocks,但还是有其使用场景,技多也不压身。本篇了解ClickHouse特性和性能,并完成一个单机和三台集群环境部署并验证可用,为后续实站提供前提条件...原创 2022-05-21 01:12:36 · 1540 阅读 · 0 评论