第一步: 需求分析
需要哪些字段(时间:每一天,各个时段,id,url,guid,tracTime)
需要分区为天/时
PV(统计记录数)
UV(guid去重)
第二步: 实施步骤
建Hive表,表列分隔符和文件保持一至
Load数据到Hive表中
写HiveSql进行统计,将结果放入Hive另一张表中(数据清洗)
从Hive的另一张表中的数据导出到Mysql,使用sqoop
网站项目从Mysql读取这张表的信息
预期结果
日期小时PVUV
第三步: 实施
# 建源表(注意进入beeline用户名密码是linux的)
create database if not exists track_log;
use track_log;
create table if not exists yhd_source(
id string,
url string,
referer string,
keyword string,
type string,
guid string,
pageId string,
moduleId string,
linkId string,
attachedInfo string,
sessionId string,
trackerU string,
trackerType string,
ip string,
trackerSrc string,
cookie string,
orderCode string,
trackTime string,