数据处理工具简单了解

一、Redis字典结构的数据存储服务器

Redis是一个字典结构的存储服务器,而实际上一个Redis实例提供了多个用来存储数据的字典,客户端可以指定将数据存储在哪个字典中。

二、kafka消息队列

发布-订阅消息传递模式

在发布-订阅消息系统中,消息被持久化到一个topic中。消费者可以订阅一个或多个topic,消费者可以消费该topic中所有的数据,同一条数据可以被多个消费者消费,数据被消费后不会立马删除。在发布-订阅消息系统中,消息的生产者称为发布者,消费者称为订阅者。该模式的示例图如下:

发布者发送到topic的消息,只有订阅了topic的订阅者才会收到消息

详细图如下:(每个topic中有多个partition)

三、Apache Flink分布式的大数据处理引擎

具体用途:fink实时接收来自消息队列或者各种类型数据库中的数据,通过flink计算引擎进行处理之后,发送给应用,各种类型数据库,或者消息队列。

Flink是一个对有限数据流和无线数据流进行有状态的计算的引擎:

1)有限数据流:有限不会改变的数据集合--批处理、离线运算

2)无限数据流:数据流源源不断的--流式计算、流计算

举例:点击流(终端手机用户或者web应用的点击流)、服务器上的日志数据

Flink两种计算模型

1)流式计算、流计算,一直处于运行或者等待运行状态

2)批处理/离线运算,在预先定义的时间内运行计算,当完成时释放计算机资源

四、gRPC远程(远程过程调用)框架

提供了一套机制,使得应用程序之间可以进行通信,而且也遵从server/client模型。使用的时候客户端调用server端提供的接口就像是调用本地的函数一样。

如下图所示就是一个典型的RPC结构图。

 

上图中,两个客户端调用了gRPC服务端的接口。

五、hive

Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦。

 

如图中所示,Hive通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore),将这些指令翻译成MapReduce,提交到Hadoop中执行,最后,将执行返回的结果输出到用户交互接口。

     在使用过程中,至需要将Hive看做是一个数据库就行,本身Hive也具备了数据库的很多特性和功能。

     Hive擅长的是非实时的、离线的、对响应及时性要求不高的海量数据批量计算,即席查询,统计分析。

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值