大数据
文章平均质量分 96
IT小神
虽然不能成为技术大神,但也要与时俱进保持对于IT新技术的学习追求,一点点积累与自我总结,即使再小的帆也能远航
itxiaoshen博客
展开
-
新一代开源流数据湖平台Apache Paimon入门实操-下
上一篇对Apache Paimon有了基础了解,本身则主要通过实操方式进一步加深理解,具备沉淀后续投入使用的基础知识;进行数据插入和更新操作,基于批和流式多种查询方式如时间旅行和增量查询,并了解相关系统表的查看,最后MySQL和基于Kafka(通过Canal对MySQL数据库实现变更捕获)的CDC集成完整示例演示收尾。原创 2023-08-07 18:22:39 · 1275 阅读 · 0 评论 -
新一代开源流数据湖平台Apache Paimon入门实操-上
本篇介绍一个强大的流数据湖平台,Flink官方开创,发展速度迅速,先了解其基本定义、适用场景和原理,然后基于yarn方式部署和测试,最后通过Catalog管理、创建表和修改多个示例了解基本使用原创 2023-08-03 18:18:24 · 2898 阅读 · 0 评论 -
国产开源流批统一的数据同步工具Chunjun入门实战
前面我们学习过SeaTunnel这个优秀数据集成平台,今天再来研究一个与之相似开源产品ChunJun,原名为FlinkX其比SeaTunnel开源更早,本篇从了解其概况和特性;然后通过源码编译的方式部署,暂时先通过简单的Local和Standalone两种提交任务方式,通过几个示例一步步演示如何通过Json和SQL两种配置方式实现批流模式,如从MySQL数据源Sink写入HDFS、从Kafka数据源并通过关联ClickHouse表数据转换并最后Sink写入MySQL的使用。原创 2023-07-04 23:35:27 · 2045 阅读 · 0 评论 -
一文解开主流开源变更数据捕获技术之Flink CDC的入门使用
相比前面介绍maxwell,实时数据采集中最主流技术非Flink CDC莫属,其直接省去中间的消息中间件如kafka,且支持增量采集也支持全量采集;本篇先介绍CDC的技术和分类,进一步了解其特性和支持丰富数据源,最后通过FLink DataStream和SQL两种编程示例解开入门。原创 2023-06-27 23:39:51 · 1407 阅读 · 0 评论 -
数据治理核心保障数据质量监控开源项目Apache Griffin分享
数据开发和数据应用创造价值离不开数据的质量,数据质量管理是数据治理重要保障途径,Apache Griffin就是为解决数据质量监控而设计,本篇先了解Apache Griffin定义、特性和架构,然后通过官方提供docker-compose一键部署和体验,通过官网提供批处理和流处理演示操作,最后通过其提供UI管理页面实操一个批处理的数据质量监控示例。原创 2023-06-01 22:57:46 · 2845 阅读 · 8 评论 -
实时分布式低延迟OLAP数据库Apache Pinot探索实操
一个适合工业物联网实时采集传感器数据实时分析工业设备的数据实现更好的预测性感知的分布式NoSQL数据库Apache Pinot,先了解其特性和使用场景,然后通过Local和Docker两种方式部署Apache Pinot和验证环境,最后通过实操其批和流式导入数据和利用其控制台端点查询数据。原创 2023-04-15 00:52:37 · 478 阅读 · 0 评论 -
基于列存储的开源分布式NoSQL数据库Apache Cassandra入门分享
通过Hbase与Cassandra对比,层次展开了解Apache Cassandra特性和使用场景,通过部署但实力和多实例集群进一步理解其运作,最后通过CQL及其客户端命令工具理解其数据模型和数据类型,通过对键空间、表、索引、数据操作熟悉常见CQL语法和使用。原创 2023-03-29 23:27:31 · 887 阅读 · 0 评论 -
开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-下
先通过Kylin对连接条件、维度和度量限制的示例弄清Kylin的使用注意事项,在此基础上研究Kylin查询引擎,并配置spark查询下压实现没有cube的查询;理解Cube的构建优化,通过官方提供RestAPI实现动态灵活查询和cube构建,最后通过集成JDBC的Java代码实现简单查询操作。原创 2023-02-11 00:10:20 · 1636 阅读 · 2 评论 -
开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-上
再下一城又一个实时多维交互式分析数仓利器,了解其特性和架构组成,进一步阐述相关概念和其生态圈;介绍作为开发测试最快捷方式的Docker单机部署;也基于Hadoop环境一步步部署最新v4.0.3二进制并解决遇到的问题,最后通过一个读取hive数据示例介绍kylin创建项目、选择数据源、创建Model、创建Cube、Cube的构建,全面认识kylin预计算查询的性能。原创 2023-02-09 23:40:34 · 1950 阅读 · 0 评论 -
大数据实时多维OLAP分析数据库Apache Druid入门分享-下
了解Apache Druid的基础概念后,本篇进一步研究其核心架构和核心设计原理部分,了解相关外部依赖,对其数据摄取和查询有一定认识,然后通过搭建分布式集群进一步理解其架构组成,最后用一个示例从HDFS将数据摄取到Druid并演示两种查询方式原创 2023-02-01 23:38:17 · 916 阅读 · 0 评论 -
大数据实时多维OLAP分析数据库Apache Druid入门分享-上
Apache Druid是⼀款针对海量数据进⾏⾼性能实时分析OLAP引擎的实时分析型数据库,本篇了解其特征和适用场景,并与其他框架横向对比;最后部署一个单机版演示本地文件摄取入库,并演示基于Json API本地查询和SQL两种查询方式。原创 2023-01-31 23:13:57 · 911 阅读 · 0 评论 -
比Sqoop功能更加强大开源数据同步工具DataX实战
前面两篇连续介绍两个数据同步组件后,好事应有三,大满贯收场,本篇介绍主流的异构数据源离线同步工具DataX的框架设计和执行流程,将其与大名鼎鼎大数据同步组件Sqoop做对比,部署安装并通过配置基于MySQL和HDFS互为读写的实例场景和关键配置说明。原创 2022-12-23 21:49:30 · 2329 阅读 · 0 评论 -
实时采集MySQL数据之轻量工具Maxwell实操
一个用于企业应用支持实时增量采集和全量采集MySQL数据开源框架Maxwell,功能强于Canal,比Flink CDC更易用。本篇先了解其定义和原理,然后通过安装和环境准备,了解其启动的两种方式,最后实操演示几个maxwell在企业中常用的场景示例。原创 2022-12-19 23:14:09 · 2435 阅读 · 0 评论 -
可视化编排的数据集成和分发开源框架Nifi轻松入门-上
如何你正在为数据采集做技术选型,今天介绍一款功能极其强大性能也高且采用可视化编排的数据集成框架nifi可以列入选型范畴,是数仓开发的强大工具之一,只要使用后就能体会到其丰富的处理器和扩展性。先了解其特性、核心概念和架构,也支持分布式集群,了解常见处理器分类,最后通过源码安装并使用两个简单的处理器演示一个基础入门示例原创 2022-12-14 00:00:36 · 2011 阅读 · 0 评论 -
秒级查询之开源分布式SQL查询引擎Presto实操-上
大数据交互式查询是每个数据分析人员不可或缺的需求,本篇以业界交互式查询的经典之作Presto为研究对象,了解其架构和优缺点及丰富连接器。并通过安装一个协调节点和3个worker节点的分布式集群,使用命令行界面演示hive连接器的查询数据表的示例,最后了解其使用的要点。原创 2022-12-08 22:45:26 · 1652 阅读 · 0 评论 -
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-后续
Hudi集成Flink SQl编程示例实现从生成器表写入Hudi表,打包集群验证;然后通过Hudi Flink CDC实现采集MySQL binlog日志写入Kafka再入到hudi表的完整示例,了解Hudi Flink的基础调试只是,最后通过Hudi集成Hive实现Flink Hive Catalog双写同步Hive过程。原创 2022-12-03 00:27:56 · 1292 阅读 · 0 评论 -
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下
本篇演示了Hudi集成Spark的Scala编程示例,并一步步操作说明如何使用DeltaStreamer从Kafka里读取数据写入到Hudi表的HDFS中,接着集成Flink的环境准备,通过基于yarn-session的Flink的sql-client方式提交任务实现插入数据和流式读取数据,了解字节贡献的Bucket索引和Hudi Catalog。原创 2022-11-28 23:28:45 · 954 阅读 · 0 评论 -
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中
本篇详细描述hoodie数据读写流程,进一步加深对数据湖技术的理解。理论后转战集成Spark的使用,通过spark-shell和spark-sql实现hoodie的插入数据、查询数据、更新数据、删除数据、覆盖数据、时间旅行查询等示例,了解创建表、修改表结构、查询分区、删除分区基本用法,为进一步使用奠定基础。原创 2022-11-23 22:35:09 · 1761 阅读 · 0 评论 -
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-上
湖仓一体时代来临解决大数据企业发展过程Lambada、Kappa架构的诸多痛点,三大数据湖技术Iceberg、Hudi、Delta Lake发展迅速,本篇则以学习功能较为齐全Hudi 数据湖入手,了解其特性和使用场景,一步步操作编译安装Hudi最新版本0.12.1,并初步了解时间轴、文件布局、索引、表类型、查询类型核心概念。原创 2022-11-15 18:56:00 · 1015 阅读 · 0 评论 -
即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng
如果你还在头疼数据分析多组件、多集群跨域等问题,推荐研究下华为开源的openlookeng,能够解决企业在面向大数据应用面临的用数难、找数难、取数难的痛点,本篇从openlookeng背景和架构开始,理解其关键技术和应用场景,最后通过安装openlookeng的集群,利用命令行接口验证MySQL和ClickHouse两种连接器的配置。原创 2022-10-26 00:43:07 · 1238 阅读 · 0 评论 -
企业大数据发展面临问题之存算分离技术思考
存算分离是下一代企业大数据必然趋势,本篇先简述存算分离背景以及为何要进行存算分离,当前存算分离主要优势和实际应用场景。并归纳分析若干如华为Ocean系列、JuiceFs、HashData等市面上存算分离产品和解决方案。原创 2022-10-12 23:03:29 · 1646 阅读 · 0 评论 -
大数据技术之HBase原理与实战归纳分享-下
上一篇对Hbase底层原理有一定理解后则进入生产开发实战,企业开发大都使用Phoenix来操作Hbase的数据,先部署Phoenix,通过其类似shell命令工具创建表和插入数据及查询数据、表映射,简易JDBC演示示例,实操理解二级索引使用,最后通过整合Hive若干示例实现对Hbase的数据的简易分析能力。原创 2022-10-11 22:21:28 · 877 阅读 · 0 评论 -
大数据技术之HBase原理与实战归纳分享-中
上一篇我们了解HBase基础知识,本篇则针对Hbase底层原理深入了解Master和RegionServer的架构,剖析Hbase的读写流程以及非常重要的写缓存刷写和文件合并机制,掌握预定义分区和系统拆分,最后通过封装Java API编程连接类、DDL操作类、DML操作类及其演示的示例代码结果结尾。原创 2022-10-10 23:06:40 · 853 阅读 · 0 评论 -
大数据技术之HBase原理与实战归纳分享-上
要想入门大数据理论和原理必先研究HBase,体会其设计精髓,本篇先介绍其基础架构和应用场景、逻辑结构和物理存储结构进一步理解其数据模型,通过详细完整步骤一步步的安装最新版本2.5高可用的Hbase集群以加深理解其整体架构,最后通过实操Hbase Shell基础命令和DDL、DMl等常用命令。原创 2022-10-09 18:50:23 · 925 阅读 · 0 评论 -
数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向
Hive与Spark之间整合有3种模式,本篇从Hive on Spark和Spark on Hive的使用出发,hive支持mr、tez和spark三种底层计算引擎,通过部署Hive on Spark环境实现Hive用到Spark的体验,Spark on Hive的使用则比较简单直接通过SQL操作Hive,最后罗列常见的一些大数据性能调优方法。原创 2022-09-12 21:53:40 · 1802 阅读 · 2 评论 -
大规模数据分析统一引擎Spark入门实战
本篇先了解Spark和Hadoop的关系与区别,进一步了解特性和相关组件架构;通过实战部署了Spark最新版本3.3.0的Local、Standalone+历史服务+HA、Yarn的部署完成操作步骤,并通过不同提交方式的示例和WebUI查看加深多Spark多种作业提交原理的理解,并拉开了使用Spark-Shell方式提交本地、集群、yarn交互式使用之门。原创 2022-09-11 22:51:53 · 1631 阅读 · 0 评论 -
Hive数据仓库工具基本架构和入门部署详解
Hive是一个建立在Hadoop HDFS架构至上的数仓工具,管理元数据但本身不存储数据,本篇了解hive优缺点,进一步理解其组成部分和数据组织形式和Driver,最后通过部署最新版本3.1.3版本完成内嵌模式、本地metastore、远程hiveserver2和metastore打开进入hive使用的大门原创 2022-09-10 11:20:54 · 1541 阅读 · 0 评论 -
Seatunnel超高性能分布式数据集成平台使用体会
有Sqoop和DataX之类数据处理为何还要用Apache SeaTunnel,这就要得益于Apache SeaTunnel依赖Flink和Spark天然分布式处理数据的特性,前两者是单机同步数据不适于海量数据同步,以低代码方式用配置文件就可以启动Flink数据处理应用,本篇从基本概念和原理入手,并通过部署SeaTunnel演示了多个基于Flink的Source和Sink配置,基本掌握如何编写配置使用。............原创 2022-08-27 00:34:13 · 7278 阅读 · 0 评论 -
新一代分布式实时流处理引擎Flink入门实战操作篇
全篇通过依赖Hadoopz最新版本3.3.4部署Flink最新版本1.15.1的实战操作,针对Standalone 单机部署、Standalone 集群部署、Standalone 单机部署 HA部署的操作步骤结合演示示例深入理解Flink的丰富安装模式,全篇重点在针对生产Flink On Yarn模式,以Flink On Yarn从部署原理、流程和示例完整操作流程说明的角度分别演示会话(Session)模式、单作业(Per-Job)模式、应用(Application)模式形成深刻的理解。原创 2022-08-21 00:10:12 · 915 阅读 · 2 评论 -
一文理解Hadoop分布式存储和计算框架入门基础
本篇从Hadoop发行版本历史开始,延伸至其生态说明,了解总体组成部分和架构,通过实战部署最新版本3.3.4实现3个节点集群,并配置NameNode和ResourceManager的HA,最后测试完成HDFS文件读写和Yarn任务资源调度。......原创 2022-08-17 19:24:05 · 1724 阅读 · 0 评论 -
高性能云原生数据对象存储MinIO实战-中
本篇为生产使用的MinIO配置Nginx代理,实战操作如何创建MinIO的用户和安全认证,通过配置MinIO的server信息开始,实操MC客户端常见的命令操作实现浏览桶、创建删除桶、文件上传下载等,最后通过编程SDK使用需求出发,通过Java客户端的实现文件上传下载的示例,最后以MinIO整合SpringBoot启动器的方式实现MinIO常见API的编程开发......原创 2022-08-07 00:56:38 · 421 阅读 · 0 评论 -
高性能云原生数据对象存储MinIO实战-上
本篇先了解一个以快著称的云原生对象存储系统,上传下载对象速度只限制于网络带宽,体会强大又极简主义的设计,从MinIO特性和架构设计思想,熟悉其常见应用场景;实战MinIO的快速部署,最后以一个可用生产系统的4个节点每个节点4块磁盘的分布式高可用部署并体验了文件上传和下载的速度。......原创 2022-08-06 01:26:16 · 1825 阅读 · 0 评论 -
Apache DolphinScheduler新一代分布式工作流任务调度平台实战-中
本篇介绍Apache DolphinScheduler总体架构和设计思想,使用shell工作流演示参数的使用、传递及其优先级,通过数据源管理演示ClickHouse SQL任务类型的工作流使用步骤,最后通过一个邮件告警示例使用DolphinScheduler更加放心......原创 2022-08-04 00:27:37 · 1694 阅读 · 0 评论 -
Apache DolphinScheduler新一代分布式工作流任务调度平台实战-上
全新一代分布式工作流任务调度平台Apache DolphinScheduler,其为azkaban的完美替换品,本篇从实战目的出发先了解特性和组成部分,然后以二进制的方式部署2个Master3个Worker1个API和1个Alert的生产环境集群,介绍了其监控中心和安全中心必用功能,最后以一个简单的shell依赖工作流整理流程打开使用的大门。.........原创 2022-07-30 00:18:56 · 1492 阅读 · 0 评论 -
数仓选型必列入考虑的OLAP列式数据库ClickHouse(上)
又多一款数仓选型,虽然ClickHouse从性能上比不上前面的StarRocks,但还是有其使用场景,技多也不压身。本篇了解ClickHouse特性和性能,并完成一个单机和三台集群环境部署并验证可用,为后续实站提供前提条件...原创 2022-05-21 01:12:36 · 1539 阅读 · 0 评论 -
国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(下)
本篇重点讲述导入数据到StarRocks几种方式,也通过一个flink-connector-starrocks的简单示例代码了解其导入过程,进而学习数组类型的使用、分布式实现本地Join的使用,最后抛出外部表的使用大门原创 2022-05-19 22:51:59 · 1141 阅读 · 0 评论 -
国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(中)
在上一篇已部署StarRocks集群环境基础上,本篇以列式存储、稀疏索引开始对StarRocks表设计进一步学习,进而理解排序键、物化视图、位图索引、布隆过滤器索引,全面理解加速数据处理,并通过动手实操示例巩固效果原创 2022-05-14 01:14:22 · 1753 阅读 · 0 评论 -
国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(上)
没错,国产之强大,越来越多像新时代云原生的Apache Pulsar一样把性能优化极致的正在快速崛起,本篇从StarRocks由来开始,了解其特性和使用场景、架构和原理、组成部分,然后部署了一个FE和3个BE集群,最后通过一个简单建表正式迈入实操原创 2022-05-12 22:43:34 · 1747 阅读 · 0 评论 -
Confluent之Kafka Connector初体验
LinkedIn数据驱动主要有两点领悟,其一是强调动态数据有效性要远远大于静态数据,其二是要利用所有数据化信息而不仅仅是交易核心数据。本篇主要从Kafka诞生背景开始,一步步引出Kafka的Connect组件,而Confluent也免费开源100多种Connector,最后用一个完整的Source和Sink例子带入门如何在分布式模式使用Kafka的Connector原创 2022-04-17 13:07:36 · 4230 阅读 · 0 评论 -
Apache Kafka分布式流处理平台及大厂面试宝典v3.0.0
Apache Kafka是一个开源的分布式事件流平台,使用Scala和Java混合编写,Kafka最初由Linkedin公司开发,2011年贡献给了Apache基金会并成为顶级开源项目。消息队列就是用于数据生产方和消费方解耦合的中间件。顾名思义,主体就是一个队列的形式收集消息,数据在消费端按照FIFO的原则被消费。近几天连续学习两个Apache的开源项目,今天我们又来学习另外一个Apache顶级开源项目Kafka,可以见得Apache在开源世界的绝对大佬地位。Kafka是一个基于Zookeeper协调的支持原创 2021-11-06 00:00:17 · 1538 阅读 · 0 评论