1 MR(MapReduce)解析流量日志
日志格式:
ip地址 - - 当前时间(DD/M/YY:HH:MM:SS +UTC) “GET /访问地址URL 请求协议” 访问状态 流量
解析结果:
ip地址\t当前时间(YYYYMMDDHHMMSS,适合中国人的格式)\t网址\t访问状态\t流量
特殊说明->
解析URL:
URL格式:
GET /URL 请求协议
特殊URL格式:
GET /static (xxxxx) 请求协议
GET /uc_server (xxxxx) 请求协议
特殊URL解析结果:
NOP
NOP
解析日期:
第一次格式转换:
d/MMM/yyyy:HH:mm:ss
第二次格式转换:
yyyyMMddHHmmss
字符串截取唯一性:
选择唯一的字符作为判断依据,确定所需的子字符串在字符串中的位置
2 Hive
在Hive中建立4张表:
kpi表(MR解析结果的5个字段)
pv表(网页点击量)
uv表(用户数)
vip表(ip的点击数前100)
3 sqoop
将hive中的表上传到mysql中