1、初识实时流处理
2、业务现状分析
需求:
统计主站每个(指定)课程访问的客户端、地域信息分布
地域:IP转换 SparkSQL项目实战
客户端:useragent获取 Hadoop基础课程
→ 如上俩个操作:采用离线(Spark / MapReduce)的方式进行统计
实施步骤:
课程编号、ip信息、useragent
进行相应的统计分析操作:MapReduce / spark
项目结构:
日志收集:Flume
离线分析:MapReduce / Spark
统计结果图形化展示