数据处理工具简单了解

黄鑫huangxin

于 2019-10-29 14:24:13 发布

阅读量537

收藏

点赞数 1

分类专栏：随笔

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33373858/article/details/102798726

版权

随笔专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、Redis字典结构的数据存储服务器

Redis是一个字典结构的存储服务器，而实际上一个Redis实例提供了多个用来存储数据的字典，客户端可以指定将数据存储在哪个字典中。

二、kafka消息队列

发布-订阅消息传递模式

在发布-订阅消息系统中，消息被持久化到一个topic中。消费者可以订阅一个或多个topic，消费者可以消费该topic中所有的数据，同一条数据可以被多个消费者消费，数据被消费后不会立马删除。在发布-订阅消息系统中，消息的生产者称为发布者，消费者称为订阅者。该模式的示例图如下：

发布者发送到topic的消息，只有订阅了topic的订阅者才会收到消息。

详细图如下：（每个topic中有多个partition)

三、Apache Flink分布式的大数据处理引擎

具体用途：fink实时接收来自消息队列或者各种类型数据库中的数据，通过flink计算引擎进行处理之后，发送给应用，各种类型数据库，或者消息队列。

Flink是一个对有限数据流和无线数据流进行有状态的计算的引擎：

1）有限数据流：有限不会改变的数据集合--批处理、离线运算

2）无限数据流：数据流源源不断的--流式计算、流计算

举例：点击流(终端手机用户或者web应用的点击流)、服务器上的日志数据

Flink两种计算模型

1）流式计算、流计算，一直处于运行或者等待运行状态

2）批处理/离线运算，在预先定义的时间内运行计算，当完成时释放计算机资源

四、gRPC远程（远程过程调用）框架

提供了一套机制，使得应用程序之间可以进行通信，而且也遵从server/client模型。使用的时候客户端调用server端提供的接口就像是调用本地的函数一样。

如下图所示就是一个典型的RPC结构图。

上图中，两个客户端调用了gRPC服务端的接口。

五、hive

Hive就是在Hadoop上架了一层SQL接口，可以将SQL翻译成MapReduce去Hadoop上执行，这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析，而不必使用编程语言开发MapReduce那么麻烦。

如图中所示，Hive通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver，结合元数据(MetaStore)，将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

在使用过程中，至需要将Hive看做是一个数据库就行，本身Hive也具备了数据库的很多特性和功能。

Hive擅长的是非实时的、离线的、对响应及时性要求不高的海量数据批量计算，即席查询，统计分析。

黄鑫huangxin

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值