中间组件
文章平均质量分 94
wyc_595998412
希望在今后5年实现以下目标:1、读最好的书 2、见最优秀的人 3、走一条属于自己的路。
展开
-
kafka(常见问题)
kafka常见问题1、如果想消费已经被消费过的数据consumer是底层采用的是一个阻塞队列,只要一有producer生产数据,那consumer就会将数据消费。当然这里会产生一个很严重的问题,如果你重启一消费者程序,那你连一条数据都抓不到,但是log文件中明明可以看到所有数据都好好的存在。换句话说,一旦你消费过这些数据,那你就无法再次用同一个groupid消费同一组数据了。原因:消费...原创 2018-08-26 15:38:40 · 514 阅读 · 0 评论 -
Sqoop
Apache Sqoop是用来实现结构型数据(如关系数据库)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,同时也借助MapReduce实现了容错。项目地址: http://sqoop.apache.org/目前为止,已经演化出了2个版本:sqoop1和sqoop2。sqoop1的最新版本是1.4.5,sqoop2的最新版本是...原创 2018-08-31 16:48:58 · 1027 阅读 · 0 评论 -
flume基础
1 .背景 flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为apache top项目之一. 2 .概述 1. ...原创 2018-08-31 16:57:41 · 309 阅读 · 0 评论 -
kafka-最新实战
Kafka 由于高吞吐量、可持久化、分布式、支持流数据处理等特性而被广泛应用。但当前关于Kafka原理及应用的相关资料较少,在我打算编写本文时,还没有见到中文版本的Kafka相关书籍,对于初学者甚至是一些中高级应用者来说学习成本还是比较高的,因此我打算在对Kafka进行深入而系统的研究基础上,结合自己在工作中的实践经验,编写一本介绍Kafka原理及其基本应用的书籍,以帮助Kafka初、中、高级应用...转载 2018-08-29 17:05:25 · 300 阅读 · 0 评论 -
Kafka(内部详解)如何保证数据的一致性
数据一致性保证一致性定义:若某条消息对client可见,那么即使Leader挂了,在新Leader上数据依然可以被读到HW-HighWaterMark: client可以从Leader读到的最大msg offset,即对外可见的最大offset, HW=max(replica.offset)对于Leader新收到的msg,client不能立刻消费,Leader会等待该消息被所有ISR中的re...原创 2018-09-07 19:42:48 · 17383 阅读 · 0 评论 -
Flume + Kafka +HDFS构建日子系统实例
Flume + kafka + HDFS构建日志采集系统 Flume是一个非常优秀日志采集组件,类似于logstash,我们通常将Flume作为agent部署在application server上,用于收集本地的日志文件,并将日志转存到HDFS、kafka等数据平台中;关于Flume的原理和特性,我们稍后详解,本文只简述如何构建使用Flume + kafka + HDFS构建一套...原创 2018-09-16 18:04:16 · 566 阅读 · 0 评论 -
消息队列
作为中间件,消息队列是分布式应用间交换信息的重要组件。消息队列可驻留在内存或磁盘上, 队列可以存储消息直到它们被应用程序读走。通过消息队列,应用程序可以在不知道彼此位置的情况下独立处理消息,或者在处理消息前不需要等待接收此消息。所以消息队列可以解决应用解耦、异步消息、流量削锋等问题,是实现高性能、高可用、可伸缩和最终一致性架构中不可以或缺的一环。下面对消息队列就直接使用MQ表示。现在比较常...转载 2018-09-10 17:23:51 · 341 阅读 · 0 评论