Spark Streaming
飞翔的小宇宙
天下事有难易乎?为之,则难者亦易矣;不为,则易者亦难矣。 人之为学有难易乎?学之,则难者亦易矣;不学,则易者亦难矣。
展开
-
二.Spark Streaming之日志收集框架Flume实战(二)
1.需求    监控一个文件实时采集新增的数据输出到控制台2.创建配置文件    在conf下创建一个名为exec-memory-logger.conf的文件,在文件中加入以下配置: # Name the components o原创 2018-11-13 15:31:42 · 160 阅读 · 0 评论 -
一. Spark Streaming之日志收集框架Flume实战(一)
1.简介    Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力。它使用简单的可扩展数据模型,允许在线分析应用程序。2.下载安装如果你是centos系统通过以下命令直接下载:wget http://archive.c...原创 2018-11-12 20:33:40 · 324 阅读 · 0 评论 -
四.Spark Streaming之kafka单节点单broker部署及使用(一)
一.介绍1).概念:    kafka是用于构建实时数据管道和流媒体应用。它是水平扩展的,容错的,快速的,并且在成千上万的公司中使用。消息中间件: 生产者和消费者2).举例说明:妈妈: 生产者你 : 消费者馒头: 数据流正常情况下: 生产一个 消费一个其他情况原创 2018-11-16 16:34:52 · 395 阅读 · 0 评论 -
三.Spark Streaming之Flume跨服务器收集日志(三)
一.引言需求:    将A服务器上的日志实时采集到B服务器。技术选型:exec source + memory channel + avro sinkavro source + memory channel + logger sink设计图:二.配置服务器A(47.100.63.28)的配原创 2018-11-15 10:36:48 · 223 阅读 · 0 评论 -
七.Spark Streaming之Flume整合kafka实现实时数据采集
一.引言    实现架构就是avro sink发送到avro source接收,然后发送到kafka sink作为生产者,另外创建一个消费者进行消费即可,但是一个前提就是机器一监控的是data.log文件的日志内容。二.Kafka配置及启动host.name=hadoop000log.dirs=/root/data/tmp/kafka-logsz...原创 2018-11-23 16:40:10 · 541 阅读 · 0 评论 -
六.Spark Streaming之kafka容错性测试
第一步.启动三个broker:     不知道的参考链接第二步.测试1).通过命令查看节点的详细信息: kafka-topics.sh --describe --zookeeper hadoop000:2181显示如下:Topic:ligh-replicated-topic PartitionCount:1 ReplicationFa...原创 2018-11-19 16:59:31 · 278 阅读 · 0 评论 -
八.Spark Streaming之scala,hadoop环境的搭建
一.Scala的安装:1.下载:wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz2.解压:tar -zxvf scala-2.11.8.tgz -C ~/app/3.配置系统环境变量:vim .bash_profile source .bash_profile然后加上以上配置export S...原创 2018-11-24 20:29:44 · 249 阅读 · 0 评论