修改配置文件需要root权限, sudo command
只有一个地方需要修改
/etc/hosts
192.168.15.129 hadoop000
192.168.15.129 localhost
hadoop生态系统:cdh5.7.0
下载地址http://archive.cloudera.com/cdh5/cdh/5/
jdk:1.8
spark:2.2
scala:2.11.8
spark版本升级 (通过官网)
Maven 3.3.9 jdk1.8+
第二章: 初识实时流处理
2-2 业务现状分析
**需求:统计主站(指定)课程访问的客户端、地域信息分布**
- 地域:ip转换 sparksql项目实战
-
客户端:useragent获取 hadoop基础课程
==> 如上两个操作:采用离线(spark/mapreduce)方式进行统计
实现步骤:
课程编号、ip信息、useragent
进行相应的统计分析操作:MapReduce/Spark
项目架构
日志收集:Flume
离线分析:MapReduce/Spark
统计结果图形化展示
问题
小时级别
10分钟
5分钟
1分钟
秒级别
如何解决??? == >实时流处理框架
2-3 实时流处理产生背景
- 时效性高
- 数据量大
2-4实时流处理概述
-
实时计算
-
流式计算
-
实时流式计算
2-5离线计算与实时计算对比
-
数据来源
离线:HDFS 历史数据 数据量比较大
实时:消息队列(kafka),实时新增/修改记录过来的某一笔数据 -
处理过程
离线:MapReduce: map+reduce
实时:Spark(DStream/SS) -
处理速度
离线:慢
实时:快速 -
从进程的角度
离线:启动+销毁
实时:7*24h
实时流处理框架对比
**Apache Strom**
**Apache Spark Streaming**
**IBM Stream**
**Yahoo!S4**
**LinkedIn Kafka**
实时流处理架构与技术选型
实时流处理在企业中的应用
电信行业
电商行业