大数据Spark Streaming 实战
Pennhhe
对时间有耐心
展开
-
1. 项目概述
1. 项目背景 本项目是一个基于日志的大数据实战项目。主要功能是通过Python 脚本产生模拟登陆日志,使用Flume收集信息,上传到kafaka,通过Spark Streaming 消费kafka的数据,存入HBase中。 后续在Hbase的数据上,进行可视化的开发。 项目的整体架构如下图所示: 2. 模块简介 Flume Apache Flume 是一个分布式日志收集系統。本项目中主要使...原创 2019-03-21 16:17:35 · 857 阅读 · 0 评论 -
8. 需求一:计算每天每个种类视频的点击数
1. 需求描述 处理后的点击日志格式如下: ip , 访问时间,视频类别,请求状态 ClickLog(187.124.156.143,20171122,6,-,404) 需要的数据结果: CategoryClickCount(dayCategoryId:String, clickCount:Int) dayCategoryId : 访问的日期 + 视频类别 clickCount : 访问的数...原创 2019-05-29 11:33:44 · 310 阅读 · 0 评论 -
7. HBase 工具类开发
1. HBase 基本概念 HBase的结构: HBase是面向列的数据库,一个表中有多个列族,每个列族有任意数量的列。表中的每个单元的值具有时间戳。 总之,在HBase中: 表是行的集合 行是列族的集合 列族是列的集合 列是键值对的集合。 create 'category_clickcount', 'info' 2. HBase工具类开发 public class HBaseUtils...原创 2019-05-29 10:20:04 · 239 阅读 · 0 评论 -
6. 日志数据格式转换
1. 从Kafak 接收的数据如下 124.29.167.30 2019-03-23 21:58:01 “GET www/1 HTTP/1.0” https://search.yahoo.com/search?p=猎场 404 124.29.167.30 访问源ip 2019-03-23 21:58:01 访问时间 “GET www/1 HTTP/1.0” https:...原创 2019-05-28 17:41:20 · 843 阅读 · 0 评论 -
SparkStreaming
1. 什么是SparkStreaming SparkStreaming是Spark核心API的扩展,支持可扩展的,高通量,容错性的流式数据处理。在数据的处理过程中可以使用Spark MLlib中的机器学习算法。 数据来源支持: Kafka Flume Kinesis TCP sockets 数据的输出支持: 文件系统 数据库 live dashBoard SparkStreaming 的...原创 2019-05-30 18:30:41 · 94 阅读 · 0 评论 -
4. Flume和Kafka连通测试
1. Kafka 安装与配置 1.1 下载Kafka 在官网下载kafka,kafka_2.11-2.1.1.tgz。 1.2 解压 解压至指定目录。tar -zxvf -C 你的目录 1.3 启动kafka 切换到kafka的安装路径,启动zookeeper bin/zookeeper-server-start.sh config/zookeeper.properties &...原创 2019-04-02 15:22:17 · 327 阅读 · 0 评论 -
3.Flume 简介
1.Flume 简介 Flume 是一个分布式,可靠的日志收集服务。 2. Flume 核心概念 Client :产生数据。 Event :一个数据单元,消息头和消息体组成。 Flow :Event从源头到达目的点的迁移的抽象。 Agent:一个独立的Flume进程,包含组件Source,Channel,Sink Source 数据收集组件 Channel 中转Event的临时存储。像一个队列。...原创 2019-03-26 23:09:16 · 94 阅读 · 0 评论 -
5. SparkStreaming消费kafka
1. 新建工程 2. 导入maven依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://...原创 2019-04-04 15:04:33 · 138 阅读 · 0 评论 -
2.日志生成
1. 日志格式 ip localtime url reference status 156.124.10.29 2019-03-20 05:10:13 GET www/4 HTTP/1.0 https://www.baidu.com/s?wd=快乐人生 404 ip 访问IP localtime 访问时间 url 访问链接 www 之后的数字表示访问类型 1 电影 2 电视...原创 2019-03-25 09:19:16 · 128 阅读 · 0 评论 -
9.打包在提交任务到环境
1. 软件打包 <plugins> <plugin> <artifactId>maven-assembly-plugin</artifactId> <configuration> <archive> ...原创 2019-05-29 14:56:29 · 125 阅读 · 0 评论