Apache Ignite与Apache Hive的个人理解与总结

最新推荐文章于 2024-07-30 16:27:14 发布

Davidddl

最新推荐文章于 2024-07-30 16:27:14 发布

阅读量2.5k

点赞数

文章标签： ignite spark Hadoop

本文链接：https://blog.csdn.net/Davidddl/article/details/79522686

版权

首先，贴一下官网链接辟邪：官网链接

下面，就看我强行总结吧，如果理解有误，请大佬及时指正，感激不尽！

Apache Ignite是啥玩意，在上一篇已经讲过了，可能还比较易于理解：理解Ignite传送门

Apache Hive是啥玩意？说来挺复杂的，简而言之，大概就是建立在Hadoop之上的开源数据仓库框架或工具。为啥会有这框架呢，就比如说，你去往记几的mysql或者oracle数据库中使用SQL语句或脚本一次插几十GB的记录啊，甚至TB级别的啊，看看你电脑或者服务器挂不挂，不挂的话…（卧槽，真的不会挂吗？）就算…真不会挂，那也会超久超久了啊。这个框架就是基于Hadoop批处理系统的对海量数据进行处理的玩意儿。而且不需要写MapReduce了，写SQL不需要写Java了，对大多数人来说都是一个字：爽。

Hadoop这个小象呢，简单来说，就是一个管理节点，一堆存储数据的节点，一个管理节点的管家和一个处理命令的流水线，再加MapReduce和YARN

至于详细的Spark，Hadoop，Hive这些东东具体都是啥呢，请看：传送门

好了，进入正题：

1. Ignite提供了与spark和Hadoop的无缝集成。ignite-Hadoop的集成使用 ignite File System 作为主要缓存层来存储HDFS数据。而 ignite-spark 呢，使用spark RDD实现了跨越多个Spark共享内存中的状态。

2. Apache Ignite提供了Spark RDD抽象的实现，原生的Spark RDD和IgniteRDD主要的不同是，ignite RDD 使得应用程序和spark可以共享内存视图的数据，而原生的spark RDD的数据不能被别的任务或其他spark共享。就相当于是在原来的spark application中加了一个基于内存分享的层次。

3. 分布式的内存中的文件系统，叫做IGFS（ignite file system）。IGFS提供了与Hadoop HDFS类似的功能，不过仅仅局限于内存上。IGFS除了自己的API之外，还实现了Hadoop FileSystem API，并且可以透明地插入到Hadoop或spark程序部署中。

4. 减少内存映射。ignite的基于内存的MapReduce可以有效地并行处理存在任何Hadoop文件系统中的数据，消除了传统的Hadoop体系结构中的作业追踪和任务追踪的开销，同时提供低延迟，HPC（高性能计算机群）分布式处理。

5. 提供了Hadoop的加速器，提供了一组允许内存Hadoop作业执行和文件系统操作的组件。可以与ignite file system和in-memory MapReduce结合使用，并且可以随意插入任何Hadoop发行版。

总之，一句话，ignite不仅仅是一个十分NB的数据库，而且还提供了支持spark和Hadoop的优化，更加支持分布式的应用。

正如官网所说：Ignite是很强大的整体解决方案和开发平台。