一、系统架构设计
- 首先,会将Nginx服务器所产生的日志文件通过Flume采集到HDFS中;
- 其次,开发人员根据原始日志文件及规定数据格式定制开发MapReduce程序进行数据与处理;
- 接着,通过Hive进行最为重要的数据分析;
- 再次,将分析的记过通过sqoop工具导出到关系数据库MySQL中;
- 最后,通过Web系统,实现最为重要的数据分析
二、系统概述
- 虚拟机中的Flume采集网站日志,存放入到虚拟机hdfs中。
- 将虚拟机hdfs中的日志数据,存放到window中的D:/input文件夹中
- 在window中的eclipse中编写MapReduce程序,对D:/input中的日志数据进行清洗,并输出到D:/output
- 再将D:/output中的清洗后的数据,上传到虚拟机中的hdfs中
- 在虚拟机中的hive中,创建了数据仓库中的表,字段对应日志中的数据,并加载hdfs中清洗后的数据到该表中。编写HQL语句(类似sql语句),对数据进行汇总统计分析。因为hive中的表存放在hdfs中,所以汇总分析之后的数据也在hdfs中。
- 通过sqoop将hive统计分析之后的数据导入到mysql中。
- 编写ssm框架,利用Echarts,将mysql中的数据进行了可视化展示