2016年08月_qq_23660243

12月 08月 07月 05月 04月 03月 02月 01月

翻译 Apache Flume（二）

继续上文的flume进行学习，不多说，直接进入主题。Flume支持根据zookeeper的agent的配置。这是个实验性的特征（我估计这么说可能说明目前还不是很稳定，猜的），配置文件需要上传到zookeeper上面，有着配置文件的后缀。配置文件被保存在zookeeper的节点数据中，以下是节点树查看agent的a1和a2：- /flume |- /a1 [Agent config

2016-08-15 12:11:41 610

翻译 Apache Flume（一）

今天详细学习一下flume，原来都是琐琐碎碎，仅限于使用。不多说，还是从官方网站开始。Apache Flume是一个分布式、可靠的、可用的系统，该系统用来高效的收集、聚合、移动那些存储在不同数据源的大量日志数据到中心数据存储点。Apache Flume不仅仅限于日志的数据聚合，因为数据源是自定义的。Flume可以传输大量的日志数据事件数据，不仅仅包含网络交易日志、社交媒体日志、邮件信息，还

2016-08-10 15:08:31 677

原创 JAVA_Kafka_producer_consumer

消费者代码：import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Properties;import java.util.concurrent.ExecutorService;import kafka.consumer.Consumer;import kafka

2016-08-10 09:37:07 580

翻译 Apache Kafka(三)

我们继续之前的所述，继续kafka的学习。第八部（使用kafka流来处理数据）：kafka stream是kafka的一个客户端包，这个包用来实时处理和分析保存在kafka brokers中的数据。以下这个简短的例子将会讲解如何在使用这个包运行实时处理的应用。下面是WordCountDemo的核心代码:它实现了wordcount算法，也就是统计从输入源读取的内容中单词出现的次数。但

2016-08-09 10:37:19 660

原创 Apache Kafka 实战从零开始（一）

不多说，咱们直接进入主题，那么我这里介绍一下我的环境。我用的是mac本，没有往本机装虚拟机，所以我用的是我的阿里云主机，穷滴很，就单节点吧咳咳。那么首先说一下，由于我们的Kafka需要zookeeper的支持，所以在安装kafka之前我强烈建议先安装一下zookeeper，虽然kafka有个内带的很low的zookeeper方便调试，但是建议不要用，为啥？因为low，不用！那么又因为zooke

2016-08-08 16:46:51 4293

翻译 Apache Kafka(二)

那么这次我们进行kafka的简单应用。第一步（下载代码）：下载0.10.0.0版本并且解压，可以使用命令：tar -xvf kafka-2.11-0.10.0.0.tgz接着我们进入解压后的目录：cd kafka-2.11-0.10.0.0第二步（启动服务）：kafka需要使用zookeeper，所以我们需要提前安装zookeeper并且启动。如果没有安装的话，你可以使用kaf

2016-08-08 14:52:47 462

翻译 Apache Kafka(一)

Kafka讲解介绍kafka是一个分布式的，分区的，可备份的日志提交服务。它提供了消息系统的功能，但是设计确实独一无二。这些意味着什么呢？首先我们介绍一些术语：1. Kafka获取的消息在类型上叫做topics2. 我们把生产消息到kafka的进程叫做producer（生产者）3. 我们称订阅topic并且处理kafka获得的消息的进程叫做consumer（消费者）

2016-08-05 14:02:57 700

原创 Scala协变逆变上界下界

这里介绍一下关于scala中的协变逆变的有关知识，因为真的每次碰见都懵逼的感觉很难受。此处我不会对比Java中的相关协变逆变，只针对scala的进行讲解。首先我说一下协变，所谓协变，白话文就是说让你的能够使用比原始定义类型的子类。不要懵逼，光看字我本人也看不懂，那么我们来通过实际的例子来讲解一下，首先上代码：/** * Created by mahuichao on 16/8/4.

2016-08-04 10:33:12 853

原创 spark提交

这次主要讲一下spark的提交具体操作和流程。原来一直用，也没怎么深入查看，那么这次就来仔细看一下提交的学问。跟我们以前一样，我们以官网下手。这里我不在把英文贴上，直接进行。在spark的bin文件夹下的spark-submit脚本是用来提交应用的。它能够通过一个统一的接口来使用所有spark支持的集群管理器，所以我们不必单独配置每一个应用。如果你的代码依赖其他的项目，那么你需要与应用程序

2016-08-03 10:24:38 1112