一共81个，开源大数据处理工具汇总（上）

最新推荐文章于 2024-06-26 11:32:56 发布

2401_84166258

最新推荐文章于 2024-06-26 11:32:56 发布

阅读量319

点赞数 14

分类专栏：程序员文章标签：开源

本文链接：https://blog.csdn.net/2401_84166258/article/details/138347286

版权

本文汇总了多个开源大数据处理工具，包括流式计算、迭代计算、离线计算、键值存储和表格存储领域的工具。介绍了Cloudera Impala、Apache Drill、Apache Tajo、Hive等，强调了它们的特点和应用场景，如交互式查询、实时分析、数据仓库等。此外，还提到了Facebook的Puma、Twitter的Rainbird、Yahoo的S4和Twitter的Storm等流式计算工具，以及Apache Hama、Apache Giraph等迭代计算工具。

摘要由CSDN通过智能技术生成

Pig官方网站>>>

六、Cloudera Impala

贡献者：:Cloudera

**简介：**Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速，交互式的SQL查询。除了使用相同的存储平台外， Impala和Apache Hive一样也使用了相同的元数据，SQL语法（Hive SQL），ODBC驱动和用户接口（Hue Beeswax），这就很方便的为用户提供了一个相似并且统一的平台来进行批量或实时查询。

Cloudera Impala 是用来进行大数据查询的补充工具。 Impala 并没有取代像Hive这样基于MapReduce的分布式处理框架。Hive和其它基于MapReduce的计算框架非常适合长时间运行的批处理作业，例如那些涉及到批量 Extract、Transform、Load ，即需要进行ETL作业。

Impala 提供了：

❶数据科学家或数据分析师已经熟知的SQL接口

❷能够在Apache Hadoop 的大数据中进行交互式数据查询

❸ Single system for big data processing and analytics so customers can avoid costly modeling and ETL just for analytics

Cloudera Impala官方网站>>>

七、Apache Drill

贡献者：：MapR

简介：Apache Drill是是一个能够对大数据进行交互分析、开源的分布式系统，且基于Google Dremel实现，它能够运行在上千个节点的服务器集群上，且能在几秒内处理PB级或者万亿条的数据记录。Drill能够帮助企业用户快速、高效地进行Hadoop数据查询和企业级大数据分析。Drill于2012年8月份由Apache推出。

从Drill官方对其架构的介绍中得知，其具有适于实时的分析和快速的应用开发、适于半结构化/嵌套数据的分析、兼容现有的SQL环境和Apache Hive等特征。另外，Drill的核心模块是Drillbit服务，该服务模块包括远程访问子模块、SQL解析器、查询优化器、任务计划执行引擎、存储插件接口（DFS、HBase、Hive等的接口）、分布式缓存模块等几部分，如下图所示：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Apache Drill官方网站>>>

八、Apache Tajo

**简介：**Apache Tajo项目的目的是在HDFS之上构建一个先进的数据仓库系统。Tajo将自己标榜为一个“大数据仓库”，但是它好像和之前介绍的那些低延迟查询引擎类似。虽然它支持外部表和Hive数据集（通过HCatalog），但是它的重点是数据管理，提供低延迟的数据访问，以及为更传统的ETL提供工具。它也需要在数据节点上部署Tajo特定的工作进程。

Tajo的功能包括：

❶ANSI SQL兼容
❷JDBC 驱动
❸集成Hive metastore能够访问Hive数据集
❹一个命令行客户端
❺一个自定义函数API

Apache Tajo官方网站>>>

九、Hive

**简介：**hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hive官方网站>>>