hive学习记录
使用hive统计一个网站的pv,和uv,只有源文件,从导入文件到最后导出统计结果,统计一个网站某天某时的pv uv访问值。
步骤
- 在hive中新建数据源表。
- 导入源文件到hive表中。
- 对hive原表做一个数据清洗,筛选有用的字段,新建清洗表。
- 新建分区表,从数据清洗表中把输入导入到分区表。
- 对分区表的数据进行分组统计。
- 使用sqoop导出数据到mysql中。
源文件
链接:https://pan.baidu.com/s/1FwYSrehk0bg5VK8p61ttOQ 密码:ubvi
新建数据源表
//在hive上新建track_log库
create database track_log;
//新建数据源表
create table yhd_source(
id string,
url string,
referer string,
keyword string,
type string,
guid string,
pageId string,
moduleId string,
linkId string,
attachedInfo string,
sessionId string,
trackerU string,
trackerType string,
ip string,
trackerSrc string,
cookie string,
orderCode string,
trackTime string,
endUserId string,
firstLink string,
sessionViewNo string,
productId string,
curMerchantId string,
provinceId string,
cityId string,
fee string,
edmActivity string,
edmEmail string,
ed