Spark Streaming
飞翔的小宇宙
天下事有难易乎?为之,则难者亦易矣;不为,则易者亦难矣。 人之为学有难易乎?学之,则难者亦易矣;不学,则易者亦难矣。
展开
-
二.Spark Streaming之日志收集框架Flume实战(二)
1.需求     监控一个文件实时采集新增的数据输出到控制台 2.创建配置文件     在conf下创建一个名为exec-memory-logger.conf的文件,在文件中加入以下配置: # Name the components o原创 2018-11-13 15:31:42 · 160 阅读 · 0 评论 -
一. Spark Streaming之日志收集框架Flume实战(一)
1.简介     Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力。它使用简单的可扩展数据模型,允许在线分析应用程序。 2.下载安装 如果你是centos系统通过以下命令直接下载: wget http://archive.c...原创 2018-11-12 20:33:40 · 324 阅读 · 0 评论 -
四.Spark Streaming之kafka单节点单broker部署及使用(一)
一.介绍 1).概念:     kafka是用于构建实时数据管道和流媒体应用。它是水平扩展的,容错的,快速的,并且在成千上万的公司中使用。消息中间件: 生产者和消费者 2).举例说明: 妈妈: 生产者 你 : 消费者 馒头: 数据流 正常情况下: 生产一个 消费一个 其他情况原创 2018-11-16 16:34:52 · 395 阅读 · 0 评论 -
三.Spark Streaming之Flume跨服务器收集日志(三)
一.引言 需求:     将A服务器上的日志实时采集到B服务器。 技术选型: exec source + memory channel + avro sink avro source + memory channel + logger sink 设计图: 二.配置 服务器A(47.100.63.28)的配原创 2018-11-15 10:36:48 · 223 阅读 · 0 评论 -
七.Spark Streaming之Flume整合kafka实现实时数据采集
一.引言     实现架构就是avro sink发送到avro source接收,然后发送到kafka sink作为生产者,另外创建一个消费者进行消费即可,但是一个前提就是机器一监控的是data.log文件的日志内容。 二.Kafka配置及启动 host.name=hadoop000 log.dirs=/root/data/tmp/kafka-logs z...原创 2018-11-23 16:40:10 · 541 阅读 · 0 评论 -
六.Spark Streaming之kafka容错性测试
第一步.启动三个broker:      不知道的参考链接 第二步.测试 1).通过命令查看节点的详细信息: kafka-topics.sh --describe --zookeeper hadoop000:2181 显示如下: Topic:ligh-replicated-topic PartitionCount:1 ReplicationFa...原创 2018-11-19 16:59:31 · 278 阅读 · 0 评论 -
八.Spark Streaming之scala,hadoop环境的搭建
一.Scala的安装: 1.下载: wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 2.解压: tar -zxvf scala-2.11.8.tgz -C ~/app/ 3.配置系统环境变量: vim .bash_profile source .bash_profile然后加上以上配置 export S...原创 2018-11-24 20:29:44 · 249 阅读 · 0 评论