大数据生态圈常用组件（一）：数据库、查询引擎、ETL工具、调度工具等

2401_84009837

于 2024-04-22 16:55:14 发布

阅读量546

点赞数 3

分类专栏：程序员文章标签：大数据数据库 etl

本文链接：https://blog.csdn.net/2401_84009837/article/details/138083276

版权

本文概述了大数据生态系统中的关键组件，如Mysql、Oracle、Hive等，以及它们的特性、使用场景和价格成本。此外，还介绍了与Python开发相关的学习资源，包括从入门到进阶的完整学习资料，旨在帮助Python开发者高效学习和提升技能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

整理了当年使用过的一些，大数据生态圈组件的特性和使用场景，若有不当之处，请留言斧正，一起学习成长。

组件名	属性标签	特性	使用场景	价格成本
Mysql	关系型数据库，行式存储，支持sql	轻量级数据分析，存储	hive的元数据，kettle的资源库，web 应用后台库。	社区版和商业版
Oracle	关系型数据库，行式存储，支持sql	中量级数据分析，存储。可分布式	BI（商业智能）	社区版和商业版
Hive	基于HDFS的数据仓库，可行（textfile）可列（parquet）存储，支持sql	支持数据量大，依赖jdk，hadoop，元数据存储一般使用mysql	数据仓库，离线大数据集的批处理作业	开源
Spark	基于内存的大规模数据处理快速通用的计算引擎，支持sql	Job中间输出结果可以保存在内存中，从而不再需要读写HDFS。通用引擎：支持SQL 查询、文本处理、机器学习	适用于数据挖掘与机器学习； hive on saprk的快速离线计算	开源
Spark Streaming	流式处理	高吞吐量的、具备容错机制的实时流数据的处理