2017年05月_Trigl

06月 05月 04月 03月 02月

原创使用Flume+Kafka+SparkStreaming进行实时日志分析

每个公司想要进行数据分析或数据挖掘，收集日志、ETL都是第一步的，今天就讲一下如何实时地（准实时，每分钟分析一次）收集日志，处理日志，把处理后的记录存入Hive中，并附上完整实战代码1. 整体架构思考一下，正常情况下我们会如何收集并分析日志呢？首先，业务日志会通过Nginx（或者其他方式，我们是使用Nginx写入日志）每分钟写入到磁盘中，现在我们想要使用Spark分析日志，就需要先将磁盘中的文件上

2017-05-24 15:33:29 50042 10

原创 Kafka安装与简介

今天来讲一下Kafka，它是一个消息队列，应用场景比较广泛。刚开始学习一门东西，咱们先不管它是干什么的，先跑起来才是正经，所以本文主要讲两点：安装搭建Kafka简单介绍下Kafka的原理和应用1. 安装Kafka1.1 下载解压下载地址：http://kafka.apache.org/downloads，如0.10.1.0版本的Kafka下载wget http://apache.fayea.c

2017-05-23 11:01:51 28156 3

原创 Learning Spark——Spark连接Mysql、mapPartitions高效连接HBase

执行Spark任务免不了从多个数据源拿数据，除了从HDFS获取数据以外，我们还经常从Mysql和HBase中拿数据，今天讲一下如何使用Spark查询Mysql和HBase1. Spark查询Mysql内容主要参考官方文档：http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databasesSpar

2017-05-20 16:12:46 5249 1

hadoop、zookeeper、hbase、spark集群配置文件

搭建hadoop+zookeeper+hbase+spark集群的配置文件和启停命令

2016-09-13

空空如也

TA创建的收藏夹 TA关注的收藏夹