大数据框架
文章平均质量分 85
寒沧
渣渣学生
展开
-
Kafka - 生产者初步学习
Kafka - 生产者初步学习一、kafka生产者组件我们从创建一个 ProducerRecord 对象开始,ProducerRecord 对象需要包含目标主题和要发送的内容。我们还可以指定键或分区。在发送 ProducerRecord 对象时,生产者要先把键和值对象序列化成字节数组,这样它们才能够在网络上传输。接下来,数据被传给分区器。如果之前在 ProducerReco...原创 2018-04-17 14:21:56 · 327 阅读 · 0 评论 -
Kafka - 指定offset进行消费
Kafka - 指定offset进行消费在网上搜索之后发现了,从消息队列最开始的位置对数据进行消费,主要代码如下:String topicName = "A25";//用于分配topic和partitionconsumer.assign(Arrays.asList(new TopicPartition(topicName, 0)));//不改变当前offset,指定从这个to...原创 2018-04-20 19:41:15 · 34270 阅读 · 7 评论 -
kafka - 消费者其他重要配置
kafka - 消费者其他重要配置fetch.min.bytes该属性指定了消费者从服务器获取记录的最小字节数。broker 在收到消费者的数据请求时,如果可用的数据量小于 fetch.min.bytes 指定的大小,那么它会等到有足够的可用数据时才把它返回给消费者。这样可以降低消费者和 broker 的工作负载,因为它们在主题不是很活跃的时候(或者一天里的低谷时段)就不需要来来回...原创 2018-04-20 18:52:14 · 11070 阅读 · 4 评论 -
Kafka - 新消费者
Kafka - 新消费者一、数据来源数据使用上一个博文所配置的 Flume,将文本数据写入到 Kafka中。不过这次有所改变,数据的监控目录 有所改变,写入的Kafka的主题名也变更为A25。这里我们可以看到 Flume 对于新传上去的 A91 数据已经完成消费。二、消费者代码2.1 创建消费者创建消费者所使用的属性和生产者使用的属性差距不是很大:...原创 2018-04-20 11:02:55 · 1071 阅读 · 0 评论 -
kafka - 自定义序列化器
kafka - 自定义序列化器在 kafka 中提供了以下的序列化器:ByteArraySerializerStringSerializerIntegerSerializer但是内置提供的序列化器并不能满足大部分场景的需求,因此我们需要自定义序列化器一、自定义序列化器1.1 客户我们首先创建一个简单的类用于表示客户:public class ...原创 2018-04-19 14:59:21 · 1874 阅读 · 0 评论 -
Kafka - 偏移量提交
Kafka - 偏移量提交一、偏移量提交消费者提交偏移量的主要是消费者往一个名为_consumer_offset的特殊主题发送消息,消息中包含每个分区的偏移量。如果消费者一直运行,偏移量的提交并不会产生任何影响。但是如果有消费者发生崩溃,或者有新的消费者加入消费者群组的时候,会触发 Kafka 的再均衡。这使得 Kafka 完成再均衡之后,每个消费者可能被会分到新分区中。为了能...原创 2018-04-23 17:14:31 · 16486 阅读 · 3 评论 -
kafka - 生产者其他重要配置
kafka - 生产者其他重要配置生产者还有很多可配置的参数,在 Kafka 文档里都有说明,它们大部分都有合理的默认值,所以没有必要去修改它们。不过有几个参数在内存使用、性能和可靠性方面对生产者影响比较大。acksacks 参数指定了必须要有多少个分区副本收到消息,生产者才会认为消息写入是成功的。这个参数对消息丢失的可能性有重要影响。该参数有如下选项。如果 acks=0...原创 2018-04-19 10:06:40 · 12940 阅读 · 1 评论 -
Flume - 初用Flume 1.8.0
Flume - 初用Flume在Flume中,最重要的三个部件分别为:sourcechannelssink在本例中我们使用如图的架构来进行Flume数据采集:当前使用的flume版本号为1.8.0,如果相对其他类别的配置有更详细的了解,可查看:http://flume.apache.org/FlumeUserGuide.html对于flume中的使用主要是对于配置文...原创 2018-04-18 17:02:58 · 1610 阅读 · 0 评论 -
Flume - 初识
Flume - 初识一、基本架构Flume-NG 采用三层架构设计:收集(Source)、暂存(channel)和处理(Sink)。 一个event在一个agent中传输的顺序为:Source -> Interceptor -> Selector -> Channel -> Sink Processor -> Sink -> 中心存储/...原创 2018-04-17 19:11:30 · 280 阅读 · 0 评论 -
Hadoop2.7.5-HBase1.2.6伪分布式安装
Hadoop2.7.5-HBase1.2.6伪分布式安装本文已经转换成为pdf格式,下载地址为:https://download.csdn.net/download/u011669700/10273667本次软件安装包都默认装在 /root/bigdata目录下:本机配置的软件版本分别为 1. Java - java1.8.0_161 2. Hadoop - hadoop2.7...原创 2018-03-07 14:33:11 · 2188 阅读 · 0 评论