大数据
文章平均质量分 96
大数据
庄小焱
我是庄小焱,某大厂Java高级工程师、PMP项目管理专家、系统架构设计师(高级)、CSDN博文专家。博主在支付交易领域,信贷金融领域深耕,我在博客中分享业务、技术、产品相关知识,欢迎大家和我交流学习。
展开
-
大数据——Flink原理
Apache Flink 是一个强大的开源框架和分布式处理引擎,专门用于对无界和有界数据流进行有状态计算。Flink 支持高吞吐量、低延迟的实时数据流处理,同时也能够高效地处理批处理任务。其核心特点包括事件时间处理、有状态操作、容错机制,以及能够在各种常见的集群环境中运行,如 Hadoop、Kubernetes 和自定义集群。Flink 还具有高度可扩展性,能够处理从小规模到大规模的数据集,同时保持较低的内存占用和高效的计算速度。Flink 常用于实时分析、数据管道、流式 ETL、机器学习等场景,广泛应用于原创 2024-08-18 22:16:18 · 1716 阅读 · 1 评论 -
大数据——Hive原理
Apache Hive 是一个基于 Hadoop 分布式文件系统 (HDFS) 的数据仓库软件项目,专为存储和处理大规模数据集而设计。它提供类似 SQL 的查询语言 HiveQL,使用户能够轻松编写复杂的查询和分析任务,而无需深入了解 Hadoop 的底层实现。原创 2024-07-28 14:07:27 · 1222 阅读 · 0 评论 -
大数据——HBase原理
HBase 是一个开源的、非关系型的分布式数据库系统,主要用于存储海量的结构化和半结构化数据。它是基于谷歌的 Bigtable 论文实现的,运行在 Hadoop 分布式文件系统(HDFS)之上,并且可以与 Hadoop 生态系统的其他组件无缝集成。HBase 的设计目标是提供高可扩展性、实时读写和随机访问能力,这使其特别适合于需要快速处理和查询大数据集的应用场景。它采用行键(Row Key)作为主键,并使用列族(Column Family)来组织数据,数据在物理上按照行键的顺序存储,支持范围查询。原创 2024-07-27 19:23:51 · 1290 阅读 · 0 评论