2015年12月_大数据部

转载拜占庭将军问题深入探讨

Rec：FuRenjie拜占庭将军问题：了解过比特币和区块链的人，多少都听说过拜占庭将军问题，或听说过比特币（或区块链）的一个重要成就正是解决了拜占庭将军问题。但真正明白这个问题的人并不多，甚至知道这个问题实质的人都很罕见。本文是一篇技术科普，将重点提供了拜占庭将军问题本身对本质及经典算法的解析，并探讨与之相关的一些问题。笔者参考了不少文献，夹杂了大量私货，但并

2015-12-27 11:38:13 5222 1

转载 kafka系列教程5（客户端实践）

Rec: FuRenjie添加依赖可以使用服务器端下载的kafka二进制包及依赖，也可以通过mavne获取(注意实测发现该方式拿到的包是用jdk7打的)：com.sksamuel.kafkakafka_2.100.8.0-beta1生产者下面是开发生产者代码的例子： Propert

2015-12-26 16:14:42 739

转载 kafka系列教程4（服务器端实践）

Rec: FuRenjie服务器端使用1.下载kafka-0.8,有两种包，源码包和二进制包，如果是源码包，则需要先编译成对应二进制包：> tar xzf kafka-.tgz> cd kafka-> ./sbt update> ./sbt package> ./sbt assembly-package-dependency2.[可选]kaf

2015-12-26 16:13:18 1048

转载 kafka系列教程3（设计构造及原理2）

Rec: FuRenjie前面一节讲了kafka的一些构造及原理，这些内容参考自kafka论文，但是随着kafka的不断更新，一些新的特性被加了进来，如复本，消息精简等，这些在最新的kafka文档中有补充。本篇通过kafka最新的文档内容，继续来谈谈kafka在持久化，复本，消息精简等设计的原理及方法。设计动机：设计一个可以实时处理大公司需要的大规模统一数据

2015-12-26 16:11:41 793

转载 kafka系列教程2（设计构造及原理1）

Rec: FuRenjiekafka采用了一些非主流（unconventional）并经过实践的设计使其高效和可扩展。在实际使用中kafka显示出了相对于常见流行的消息系统的优越性。并且每天能够处理上百GB的新的数据。类似收集实时数据来获得查询、推荐、广告方感兴趣的内容时，需要计算大量细粒度的点击率，还包括那些没有点击的页面。在facebook大约6

2015-12-26 16:09:44 704

转载 kafka系列教程1（kafka简介）

Rec: FuRenjie概述kafka是分布式的，分区的，复本提交服务。kafka维护了一个topics，是消息类别或队列的基本单位向topics发送消息的进程叫生产者从topics订阅并处理消息的叫消费者kafka是运行在由多个叫broker的服务组成的集群中。所有服务器端与客户端交互使用了简单高效的T

2015-12-26 16:08:59 791

转载记录一下互联网日志实时收集和实时计算的简单方案

Rec: FuRenjie阅读目录Kafka中的数据分区及副本Flume拦截器的使用Flume消费者的负载均衡和容错实时计算模块其它实时数据消费者相关阅读作为互联网公司，网站监测日志当然是数据的最大来源。我们目前的规模也不大，每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成，之前，业务中对实时的要求并不高，最多也就是准实时（延迟半小时

2015-12-26 16:02:09 1586

转载 Storm和Spark Streaming框架对比

Storm和Spark Streaming两个都是分布式流处理的开源框架。但是这两者之间的区别还是很大的，正如你将要在下文看到的。处理模型以及延迟　　虽然两框架都提供了可扩展性(scalability)和可容错性(fault tolerance)，但是它们的处理模型从根本上说是不一样的。Storm可以实现亚秒级时延的处理，而每次只处理一条event，而Spark Streaming

2015-12-26 15:53:31 698

转载 Spark中使用scala方式- 操作Hbase 表：增删改查

Auth: FuRenjie在build.sbt中配置依赖（行之间需要空格）ame := "test2"scalaVersion := "2.10.4"libraryDependencies ++= Seq( "org.apache.spark" % "spark-core" % "1.0.0", "org.apache.hbase" % "hbase" % "1

2015-12-26 15:50:16 4359

转载 Spark将HDFS数据导入到HBase

Author: FuRenjie本程序运行环境：Spark+HDFS+HBase+Yarn hbase表结构为：表名table，列族fam,列为col。第一步：上代码 object inputHbase：import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.util

2015-12-26 15:32:32 1568

转载 Kafka和Spark Streaming Java版本集成并将数据实时写入HBase及代码

问题导读1.Kafka和Spark Streaming Java版本集成并将数据实时写入HBase，pom.xml是如何配置的？2.HBaseCounterIncrementor.java都实现了什么功能？3.SparkStreamingFromFlumeToHBaseExample.java实现了哪些功能？Kafka和Spark Streaming J

2015-12-26 15:30:29 2837