大数据第一阶段练习项目说明

1 MR(MapReduce)解析流量日志

日志格式:
ip地址 - - 当前时间(DD/M/YY:HH:MM:SS +UTC) “GET /访问地址URL 请求协议” 访问状态 流量
解析结果:
ip地址\t当前时间(YYYYMMDDHHMMSS,适合中国人的格式)\t网址\t访问状态\t流量

特殊说明->
解析URL:
URL格式:
GET /URL 请求协议
特殊URL格式:
GET /static (xxxxx) 请求协议
GET /uc_server (xxxxx) 请求协议
特殊URL解析结果:
NOP
NOP

解析日期:
第一次格式转换:
d/MMM/yyyy:HH:mm:ss
第二次格式转换:
yyyyMMddHHmmss

字符串截取唯一性:
选择唯一的字符作为判断依据,确定所需的子字符串在字符串中的位置
2 Hive

在Hive中建立4张表:
kpi表(MR解析结果的5个字段)
pv表(网页点击量)
uv表(用户数)
vip表(ip的点击数前100)

3 sqoop

将hive中的表上传到mysql中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值