第3章:企业项目案例需求分析
案例需求分析
用户日志行为分析(新闻网)业务需求:
1.捕获用户浏览日志信息(TB)
2.实时分析前20名流量最高的新闻话题
3.实时统计当前线上已曝光的新闻话题
4.统计哪个时段用户浏览量最高
5.报表等形式展示(提供给业务、领导做决策)
系统架构设计
系统架构图
系统数据流设计
数据流程图
备注:
HBase:一般应用于数据并发量较大读写的情况。因为是存在hdfs上,所以HBase有非常好的扩展性。
Hive-mapreduce:hive进行实时查询底层使用的mapreduce。
集群资源规划设计
机器资源足够的情况:
考虑到尽可能在本机执行,最后使用3台机器
实际配置及相关命令:
实际开发使用版本:
虚拟机:
CentOS 6.4版本64位操作系统虚拟机
安装服务版本:
flume-1.7.0-bin
hadoop-2.5.0
hbase-0.98.6-cdh5.3.0
jdk1.8.0_11
kafka_2.11-0.10.0.0
zookeeper-3.4.5-cdh5.10.0
hive-0.13.1-bin
maven-3.3.9
scala-2.11.8
spark-2.2.0-bin
开发环境:
IDEA 2016.2
Tomcat 7.0.92
Jquery 3.2.1
Echarts 4.2.1
—————————————————————————————————————
说明:
此系列文章为网课学习时所记录的笔记,希望给同为小白的学习者贡献一点帮助吧,如有理解错误之处,还请大佬指出。学习不就是不断纠错不断成长的过程嘛~