- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 使用Flume+Kafka+SparkStreaming进行实时日志分析
每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码1. 整体架构思考一下,正常情况下我们会如何收集并分析日志呢?首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,就需要先将磁盘中的文件上
2017-05-24 15:33:29 50042 10
原创 Kafka安装与简介
今天来讲一下Kafka,它是一个消息队列,应用场景比较广泛。刚开始学习一门东西,咱们先不管它是干什么的,先跑起来才是正经,所以本文主要讲两点:安装搭建Kafka简单介绍下Kafka的原理和应用1. 安装Kafka1.1 下载解压下载地址:http://kafka.apache.org/downloads,如0.10.1.0版本的Kafka下载wget http://apache.fayea.c
2017-05-23 11:01:51 28156 3
原创 Learning Spark——Spark连接Mysql、mapPartitions高效连接HBase
执行Spark任务免不了从多个数据源拿数据,除了从HDFS获取数据以外,我们还经常从Mysql和HBase中拿数据,今天讲一下如何使用Spark查询Mysql和HBase1. Spark查询Mysql内容主要参考官方文档:http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databasesSpar
2017-05-20 16:12:46 5249 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人