目录
项目背景¶
用户在网站或 APP 上的各种操作会产生大量的日志文件,对这些零散的日志收集并进行聚合分析,可以挖掘出大量有价值的信息,从而为公司的业务布局、重大决策提供数据支持。
我们可以根据每天浏览某网站的人数和访客量来判断该网站的好坏和受欢迎程度, 同时也可以根据外链的跳转率和访客或会员所用的浏览器等工具的分析来进行精准的广告推广,我们也可以根据地区的点击量和访客或是会员访问的时间的分析来进行合理的商品推广、精准推荐等操作
项目架构¶
最终可视化效果,参考:https://web.umeng.com/
课时安排¶
时间 | 内容 |
---|---|
day 1 | Linux安装及基本操作 |
day 2 | Hadoop整体介绍及集群搭建 |
day 3 | HDFS简单原理及Shell操作 |
day 4 | 数据采集工具Flume |
day 5 | 关系型数据库MySQL |
day 6 | 数据仓库工具Hive |
day 7 | 数据迁移工具Sqoop |
day 8 | Servlet及web前端 |
day 9 | 整合整个流程 |
day 10 | Azkaban完成自动调度 |