大数据处理流程
1. 数据处理流程
网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤:
1.1 数据采集
数据采集概念,目前行业会有两种解释:一是数据从无到有的过程(web服务器打印的日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过使用Flume等工具把数据采集到指定位置的这个过程叫做数据采集。
关于具体含义要结合语境具体分析,明白语境中具体含义即可。
1.2 数据预处理
通过mapreduce程序对采集到的原始日志数据进行预处理,比如清洗,格式整理,滤除脏数据等,并且梳理成点击流模型数据。
1.3 数据入库
将预处理之后的数据导入到HIVE仓库中相应的库和表中。
1.4 数据分析
项目的核心内容,即根据需求开发ETL分析语句,得出各种统计结果。
1.5 数据展现
将分析所得数据进行数据可视化,一般通过图表进行展示。