项目流程
1.数据产生
JsSdk和javaSdk。
数据怎么到达nginx服务器上的?Uri、拼接,然后http带着这些信息,请求访问nginx服务器,nginx就可以获取采集这些信息,产生的日志规则自己定义。要注意高可用(根据实际业务场景,比如只统计pv等指标的话,丢点数据关系不大可以不配置HA,但是如果是采集后台用户订单信息时,数据不能丢就要配置HA)和负载均衡。
2.数据采集
利用flume采集到HDFS上(flume配置是否要高可用,是否要汇聚节点),目录根据时间动态生成。
3.MR数据清洗
去除没有时间戳的数据(因为我们是按时间进行划分、分析,没有时间的数据无意义);
去除长度不为4的数据(该种数据认定为爬虫的数据)。
ip解析为地域信息(纯真数据库和淘宝ip解析两种方式);
UserAgent解析:分别获取浏览器和系统的名称、版本号;
LogParser解析:将时间戳去掉.转化成毫秒,处理uri参数列表,处理后的结果以<K,V>对的形式存储在map集合中。
将以上所有解析结果综合,格式化数据,存入HDFS中。
4.数据分析
七大模块&#x