flume-kafka- spark streaming(pyspark) - redis 实时日志收集实时计算

鉴于实在是比较少python相关是spark streaming的例子,对于自己实现的测试例子分享上来一起讨论。另外如果做spark streaming应用程序,强烈建议使用scala,python写日常的spark批处理程序还好

这个例子为一个简单的收集hive的元数据日志,监控各个hive客户端访问表的统计。例子简单,但是涉及到不同的组件的应用,结构图(不含红色方框)如下
实时
这也是Linkedln技术高管Jay Kreps:Lambda架构剖析中指的架构的一种实现,据了解很多公司也是按照这一套来走,具体在应用上也会灵活选用。

在实际应用中会有个疑惑:不管是写入hdfs还是利用streaming读取数据,flume或者kafka都能独立实现,包括负载均衡容错,那么为什么要两个一起上。下面是一些个人的总结,归根结底就是方便,方便用方便管

在应用上 flume 1、配置简单不用自己开发 2、可直接拦截屏蔽数据  3、通过channel对数据进行分发
        kafka 1、支持副本事件  2、topic可以被重复使用,是一个非常通用的系统
架构上flume提供一个管道流和数据分发的功能,收集数据后能够将数据分发到不同的系统中,
如同一份数据同时写入hdfs和kafka,这样就没有必要自己实现自己的消费者。
kafka则作为一个兼容且高可靠平台存储一段时间内的数据

flume

flume作为一个日志收集组件,可以简单的通过配置化文档将不同源的数据写入到类似hdfs、kafka等目标。有些时候flume未必能解决数据源整合的问题,就像日志重复这个问题。可以根据需要选择其他东西,比如统一将所有日志都按照一定格式写到redis上去,后台另起服务不断地拉取数据到kafka,甚至直接从业务代码上不断往kafka写数据,相对来说flume感觉可能更适合做一些离线的非实时数据的收集。
这里采用的是单机模式直接用exec监控日志文件,并将日志发送到kafka上,topic为mytopic。下面是其配置文件

a1.sources = r1
a1.sinks = k1
a1.channels = c1

a1.sources.r1.type = exec
a1.sources.r1.channels = c1
a1.sources.r1.command = tail -F /var/log/hive/hadoop-cmf-hive1-HIVEMETASTORE-master.log.out

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

#使用内置的过滤器regex_filter 
a1.sources.r1.interceptors= i1
a1.sources.r1.interceptors.i1.type= regex_filter
a1.sources.r1.interceptors.i1.regex= .*HiveMetaStore\\.audit.*
a1.sources.r1.interceptors.i1.excludeEvents = false

a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.topic = mytopic
a1.sinks.k1.brokerList = 10.10.10.230:9092
a1.sinks.k1.requiredAcks = 1
a1.sinks.k1.batchSize = 20
a1.sinks.k1.serializer.class=kafka.serializer.StringEncoder

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1


运行语句脚本为:nohup bin/flume-ng agent --conf conf/ -f conf/hive_log.conf -n a1 &
其中hive_log.conf为上面的配置文件,注意在这之前需要启用kafka

kafka

kafka消息收集与订阅,这里kafka只起到一个暂时存储数据及记录消费者对数据消费的偏移量。

简单启动

1、启用自带zookeeper,这里也可以指定到已有的zookeeper集群
2、启用broker服务,可使用jps查看获取启动情况
具体操作可以参考Kafka单机环境搭建

spark streaming 写入到redis

主要程序逻辑大概是这样:将从kafka获取到的数据进行解析获取ip并统计,最后将结果返回到driver端拼接成json格式,最后直接以rdd执行的时间作为key,结果为value写入redis;后续的应用需要这些数据就从redis取数了。
直接放代码了,注释都尽量写上去了…

#coding=utf8
'''
 读取kafka数据 -> 解析 -> 统计 -> 返回driver写入redis
 关于redis连接池在集群模式下的处理问题是将特定的连接写到了方法内去调用

 已测试local、standalone模式可行
'''
from __future__ import print_function
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
import re
import redis
# 解析日志
def parse(logstring):
    regex = '(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2},\d{3}).*ip=\/(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}).*tbl=([a-zA-Z0-9_]+)'
    pattern = re.compile(regex)
    m1 = pattern.search(str(logstring))
    if m1 is not None:
        m = m1.groups()
    else:
        m = None
    return m

class RedisClient:
    pool = None
    def __init__(self):
        self.getRedisPool()
    def getRedisPool(self):

        redisIp='10.10.10.230'
        redisPort=6379
        redisDB=0
        self.pool = redis.ConnectionPool(host=redisIp, port=redisPort, db=redisDB)
        return self.pool
    def insertRedis(self, key, value):
        if self.pool is None:
            self.pool = self.getRedisPool()
        r = redis.Redis(connection_pool=self.pool)
        r.hset('hsip', str(key), value)

if __name__ == '__main__':
    zkQuorum = '10.10.10.230:2181'
    topic = 'mytopic'
    sc = SparkContext(appName="pyspark kafka-streaming-redis")
    ssc = StreamingContext(sc, 15)
    kvs = KafkaUtils.createStream(ssc, zkQuorum, "kafka-streaming-redis", {topic: 1})
    # 利用正则解析日志获取到结果为 (访问时间,访问ip,访问表名)
    # kafka读取返回的数据为tuple,长度为2,tuple[1]为实际的数据,tuple[1]的编码为Unicode
    # kvs.map(lambda x:x[1]).map(parse).pprint()
    # 预处理,如果需要多次计算则使用缓存
    ips = kvs.map(lambda line: line[1]).map(lambda x:parse(x)).filter(lambda x:True if x is not None and len(x) == 3 else False).map(lambda ip:(ip[1],1))
    ipcount = ips.reduceByKey(lambda a, b: a+b).map(lambda x:x[0]+':'+str(x[1]))
    # 传入rdd进行循坏,即用于foreachRdd(insertRedis)
    r = RedisClient()
    def echo(time,rdd):
        if rdd.isEmpty() is False:
            rddstr = "{"+','.join(rdd.collect())+"}"
            print (str(time)+":"+rddstr)
            r.insertRedis(str(time), rddstr)
    ipcount.foreachRDD(echo)
    # 各节点的rdd的循坏
    # wordCounts.foreachRDD(lambda rdd: rdd.foreach(sendRecord))
    ssc.start()
    ssc.awaitTermination()


运行脚本如下

spark-submit --master spark://master:7077  \
        --jars spark-streaming-kafka-assembly_2.10-1.5.0.jar \
        ../kafkatest/kafka-streaming.py

对运行结果也打印出到控制台进行查看,结果如下
结果

这是一份测试,其目的是打通整个流程,所以很多方面是没有做很细致的考虑,包括ssc程序重启、redis等组件的参数配置读取,以上供参考。

转自:http://blog.csdn.net/zhong_han_jun/article/details/50721736

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: flumekafkaspark streamingredis 可以结合使用,实现实时统计广告投放的 PV、UV、Click 和 Cost。 具体实现方式如下: 1. Flume 用于采集广告投放的数据,将数据发送到 Kafka 中。 2. Kafka 作为消息队列,接收 Flume 发送的数据,并将数据分发给 Spark Streaming 进行处理。 3. Spark StreamingKafka 中消费数据,进行实时计算,统计广告投放的 PV、UV、Click 和 Cost。 4. 计算结果可以存储到 Redis 中,以便后续查询和分析。 通过这种方式,可以实现实时的广告投放统计,帮助企业更好地了解广告投放效果,优化广告投放策略,提高广告投放的效果和收益。 ### 回答2: FlumeKafkaSpark StreamingRedis作为数据处理与存储工具,可以实现基于实时流数据的广告投放数据统计。在该流程中,Flume可以作为源头采集数据,Kafka则可以作为缓存和转发工具,Spark Streaming负责数据处理和分析,Redis则作为数据存储与查询平台。 在Flume中,可以使用Source来采集数据,例如日志等文件或数据流,同时Flume可以将采集的数据进行转换,如使用XML或JSON等格式进行转换,然后通过Sink进行数据导出和存储。 在Kafka中,可以将Flume采集的数据作为数据源存储到Kafka中,并使用Kafka自带的Producer、Consumer API进行数据的传输和订阅。 在Spark Streaming中,可以使用Spark提供的实时流处理库来进行数据的处理和分析,如结合Spark的SQL、MLlib进行数据挖掘和建模。通常可以将Spark Streaming中的数据缓存到Redis,并通过Redis的键值对查询功能进行数据统计和查询分析。 最后,可以通过Redis来存储数据,使用Redis提供的数据类型来存储pv、uv、click以及cost等数据,并结合Redis提供的计数器和排序功能实现数据的实时统计和查询。 总的来说,以上四个工具可以实现一整套数据处理与存储平台,从数据采集到存储和分析的全过程,实现实时的广告投放数据统计和查询。 ### 回答3: Flume是一种流数据采集工具,可用于收集发往Kafka的各种数据流。Kafka是一种分布式消息系统,能够收集大量数据并保证实时性和持久性。Spark Streaming是一种流处理框架,能够对实时的数据流进行计算和处理。Redis是一种高性能的内存数据库,可用于存储和处理非常庞大的数据集。 在实时统计广告投放的PV(页面访问量),UV(独立访客数),Click(点击数)和Cost(花费)的过程中,我们可以利用以上四种技术组成一个实时数据管道以实现需求。 首先,Flume可以被用来从每个服务器中收集PV和Click数的日志。这些数据流将被直接推送到一个Kafka集群,以保证数据的实时性和可靠性。接着,Spark Streaming将被用来解析和处理Kafka中传来的数据流。它将从Kafka中提取数据,并进行一些预处理,例如对数据进行去重和排序,如果需要,可以求出UV。Spark Streaming还能够对数据流进行实时计算、聚合和过滤,最后将结果存入Redis中,以便于后续查询。 在此过程中,Redis将会扮演重要的角色。Redis可以用来存储实时的结果,同时也能够作为一个容错存储系统,以保证数据的可靠性。当Spark Streaming成功处理了数据之后,结果将经过一审,存入Redis数据库中,供后续查询使用。 最后,这整个流程是一种无状态的实时数据流处理方式。这意味着,在计算某一个数据点的时候,程序不需要考虑历史数据。而是通过更新进入的流实现。实时的数据流处理方式非常迎合现代数据处理的趋势,尤其是当前机器学习、人工智能不断兴起的背景下,实时数据对于模型训练以及预测特别重要。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值