实时:Flume/Kafka/Stream
文章平均质量分 79
大数据部
这个作者很懒,什么都没留下…
展开
-
Kafka和Spark Streaming Java版本集成并将数据实时写入HBase及代码
问题导读1.Kafka和Spark Streaming Java版本集成并将数据实时写入HBase,pom.xml是如何配置的?2.HBaseCounterIncrementor.java都实现了什么功能?3.SparkStreamingFromFlumeToHBaseExample.java实现了哪些功能?Kafka和Spark Streaming J转载 2015-12-26 15:30:29 · 2839 阅读 · 0 评论 -
Kafka性能测试方法及Benchmark报告
Author: Fu摘要 本文主要介绍了如何利用Kafka自带的性能测试脚本及Kafka Manager测试Kafka的性能,以及如何使用Kafka Manager监控Kafka的工作状态,最后给出了Kafka的性能测试报告。性能测试及集群监控工具 Kafka提供了非常多有用的工具,如Kafka设计解析(三)- Kafka High Availability (转载 2016-09-05 10:49:47 · 1507 阅读 · 0 评论 -
Kafka深度解析
背景介绍Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输支持Kafka Server间的消息分区,及分布式消费,同时保证每个partition内的消息顺序传输同时支持离线转载 2016-09-05 10:43:07 · 642 阅读 · 0 评论 -
Kafka性能测试方法及Benchmark报告
本文主要介绍了如何利用Kafka自带的性能测试脚本及Kafka Manager测试Kafka的性能,以及如何使用Kafka Manager监控Kafka的工作状态,最后给出了Kafka的性能测试摘要 本文主要介绍了如何利用Kafka自带的性能测试脚本及Kafka Manager测试Kafka的性能,以及如何使用Kafka Manager监控Kafka的工作状态,最后给出了Kafka的转载 2016-09-15 18:34:52 · 2194 阅读 · 0 评论 -
kafka系列教程5(客户端实践)
Rec: FuRenjie添加依赖可以使用服务器端下载的kafka二进制包及依赖,也可以通过mavne获取(注意实测发现该方式拿到的包是用jdk7打的):com.sksamuel.kafkakafka_2.100.8.0-beta1生产者下面是开发生产者代码的例子: Propert转载 2015-12-26 16:14:42 · 742 阅读 · 0 评论 -
kafka系列教程4(服务器端实践)
Rec: FuRenjie服务器端使用1.下载kafka-0.8,有两种包,源码包和二进制包,如果是源码包,则需要先编译成对应二进制包:> tar xzf kafka-.tgz> cd kafka-> ./sbt update> ./sbt package> ./sbt assembly-package-dependency2.[可选]kaf转载 2015-12-26 16:13:18 · 1051 阅读 · 0 评论 -
kafka系列教程3(设计构造及原理2)
Rec: FuRenjie前面一节讲了kafka的一些构造及原理,这些内容参考自kafka论文,但是随着kafka的不断更新,一些新的特性被加了进来,如复本,消息精简等,这些在最新的kafka文档中有补充。本篇通过kafka最新的文档内容,继续来谈谈kafka在持久化,复本,消息精简等设计的原理及方法。设计动机:设计一个可以实时处理大公司需要的大规模统一数据转载 2015-12-26 16:11:41 · 796 阅读 · 0 评论 -
kafka系列教程2(设计构造及原理1)
Rec: FuRenjiekafka采用了一些非主流(unconventional)并经过实践的设计使其高效和可扩展。在实际使用中kafka显示出了相对于常见流行的消息系统的优越性。并且每天能够处理上百GB的新的数据。类似收集实时数据来获得查询、推荐、广告方感兴趣的内容时,需要计算大量细粒度的点击率,还包括那些没有点击的页面。在facebook大约6转载 2015-12-26 16:09:44 · 706 阅读 · 0 评论 -
kafka系列教程1(kafka简介)
Rec: FuRenjie概述kafka是分布式的,分区的,复本提交服务。kafka维护了一个topics,是消息类别或队列的基本单位向topics发送消息的进程叫生产者从topics订阅并处理消息的叫消费者kafka是运行在由多个叫broker的服务组成的集群中。所有服务器端与客户端交互使用了简单高效的T转载 2015-12-26 16:08:59 · 797 阅读 · 0 评论 -
记录一下互联网日志实时收集和实时计算的简单方案
Rec: FuRenjie阅读目录Kafka中的数据分区及副本Flume拦截器的使用Flume消费者的负载均衡和容错实时计算模块其它实时数据消费者相关阅读作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完 成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时转载 2015-12-26 16:02:09 · 1592 阅读 · 0 评论 -
Storm和Spark Streaming框架对比
Storm和Spark Streaming两个都是分布式流处理的开源框架。但是这两者之间的区别还是很大的,正如你将要在下文看到的。处理模型以及延迟 虽然两框架都提供了可扩展性(scalability)和可容错性(fault tolerance),但是它们的处理模型从根本上说是不一样的。Storm可以实现亚秒级时延的处理,而每次只处理一条event,而Spark Streaming转载 2015-12-26 15:53:31 · 703 阅读 · 0 评论 -
sqoop导数类型不支持解决方法:Hive does not support the SQL type for column
sqoop导数类型不支持解决办法:Hive does not support the SQL type for columnsqoop导数从oracle到hive中,遇到RAW等类型时,会报错:013-09-17 19:33:12,184 ERROR org.apache.sqoop.tool.ImportTool: Encountered IOException running转载 2016-09-05 11:03:42 · 2984 阅读 · 0 评论