mangodb 高频数据_MongoDB和数据流:实现一个MongoDB Kafka消费者

《MongoDB和数据流:实现一个MongoDB Kafka消费者》要点:

本文介绍了MongoDB和数据流:实现一个MongoDB Kafka消费者,希望对您有用。如果有疑问,可以联系我们。

《MongoDB和数据流:实现一个MongoDB Kafka消费者》是否对您有启发,欢迎查看更多与《MongoDB和数据流:实现一个MongoDB Kafka消费者》相关教程,学精学透。编程之家PHP学院为您提供精彩教程。

作者:Andrew Morgan

译者:仲培艺,关注数据库领域,纠错、寻求报道或者投稿请致邮:zhongpy@csdn.net.

数据流

在当前的数据领域,单独一个系统无法支撑所有的哀求.想要分析数据,则需要来源多样的海量信息数据.

同时,我们迫不及待地渴求着答案;如果洞悉一切所需的时间超过了数十毫秒,信息就失去了价值——类似于高频交易、欺诈侦测和保举引擎这一类应用程序,更是经不起这样的等待消耗.这通常要求在流入的数据被存入数据库之前,就对其进行分析.对数据丢失的零容忍和更多挑战的出现,无疑使其更为棘手.

Kafka和数据流侧重于从多元fire-hose中获取大量数据并将其分输至需要这些数据的系统——通过筛选、聚合和分析的办法.

这篇博文介绍了Apache Kafka,并举例分析了如何将MongoDB用作流式数据的源(生产者)或目标(消费者).关于这一主题,数据流和Kafka & MongoDB白皮书提供了更为完备的研究.

Apache Kafka

Kafka提供了一个灵活、可扩展且可靠的办法,用以在一个或多个生产者与消费者之间进行事件数据流交流.事件例子包括:周期性的传感器读数,如当前温度

用户在网上商店向购物车中添加商品

发送带有特定标签的推文

Kafka事件流被归纳为几个主题.每个生产者选择一个主题来发送指定事件,而消费者则根据所需主题来提取事件.例如,一个财经应用可以根据一个标题来提取关于纽约证券交易所(NYSE)股票交易事件;若为求交易机会,则可根据另一个标题来提取公司财务申报.

Kafka中的标题被进一步细分为支持扩展的分区.每一个Kafka节点(代理)负责接收、存储并传递来自指定主题一个或多个分区的事件.依照这个方法,一个主题的处理和存储可以线性扩展覆盖多个代理.也可以通过相似的方法来扩展一个应用——让多个消费者根据一个指定标题来提取时间,每一个事件都来源自独立分区.

图表1:Kafka生产者、消费者、主题和分区

Kafka消费者MongoDB——Java示例

为了使MongoDB成为一个Kafka消费者,必需要保证所接收的信息在存入数据库之前,已被转换成BSON文档.此处,事件是代表JSON文档的字符串.而字符串则被转换成Java对象,故而便于Java开发者应用;这些对象随后被转换为BSON文档.

完成源码Maven配置,会发现测试数据更低,但仍有一些重点;从主循环开始,依据Kafka主题接收并处理变乱信息.

Fish class包括暗藏对象转换成BSON文档路径的辅助方法:

在实际应用中,有关信息的接收还有更多事情有待办理——这些信息和MongoDB参考数据读数相结合,然后通过发布到附加主题,沿着流水线操作并传递信息.此处,最后一步是通过mongo shell来确认数据已存入数据库:

MongoDB Kafka消费者的完整Java代码

商业对象——Fish.java

MongoDB的Kafka消费者——MongoDBSimpleConsumer.java

注意此处的消费者用Kafka Simple Consumer API写入——还有一个相对不那么复杂的Kafka High Level Consumer API——包含管理offsets.Simple API加强了对应用的控制,但代价是写附加码.

Maven Dependencies – pom.xml

测试数据——Fish.json下面是一个Kafka中插入测试数据的样例:

为了进行simple testing,可以用 kafka-console-producer.sh指令将数据插入clusterdb-topic1主题.

下面的步骤

想要进一步了解数据流以及MongoDB是如何适应的(包含Apache Kafka和其竞争互补技术在内的这些内容),可以读数据流和Kafka & MongoDB白皮书.

关于作者——Andrew Morgan

Andrew,MongoDB主要产物营销经理,曾在Oracle工作超过六年,在那里他负责产物管理,主管High Availability.可以通过邮箱 @andrewmorgan或者他的博客(clusterdb.com)评论与他取得联系.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
flume是一个分布式、可靠、高可用的数据采集、聚合和传输系统。在数据采集方面,flume可以很好地与nginx、kafkamongodb等常见的数据处理工具和数据库进行集成。下面介绍一下基于nginx+flume+kafka+mongodb实现埋点数据采集的步骤: 1. 配置nginx服务器,将所有的http请求都转发到flume服务器上。可以使用nginx的proxy_pass指令来实现。 2. 在flume服务器上,配置flume agent来接收nginx服务器转发过来的http请求,并将请求数据转发给kafka服务器。flume的配置文件中需要设置source、channel和sink三个部分,具体配置可以参考flume官方文档。 3. 在kafka服务器上,创建一个topic来存储flume发送过来的http请求数据。可以使用kafka的命令行工具kafka-topics来创建topic。 4. 在flume服务器上,配置一个kafka sink来将http请求数据发送到kafka服务器上的指定topic中。 5. 在mongodb数据库中创建一个collection来存储http请求数据。可以使用mongodb的命令行工具mongo来创建collection。 6. 在flume服务器上,配置一个mongodb sink来将http请求数据kafka服务器中消费,并将其存储到mongodb数据库中的指定collection中。 7. 启动nginx、flume、kafkamongodb服务,并进行测试。可以使用curl等工具模拟http请求,并查看数据是否能够被成功采集、存储到mongodb中。 以上就是基于nginx+flume+kafka+mongodb实现埋点数据采集的基本步骤。需要注意的是,具体的配置和实现过程可能会因为不同的业务需求而有所差异。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值