系统API模块——某大型互联网企业用户上网行为日志分析系统

第一部分 需求分析

 

用户上网区域分布及变化-user_online_info_area(Hive)

字段名

地区

用户数

 

日期

 

字段类型

String

 

bigint

 

String

 

 

1. 根据开始时间结束时间来查询用户的变化情况

2. 2012 02 02 2012 02 03,那么代表查这样日期之间的用户数

 

用户上网流量统计-user_online_traffic(Hive)

字段名

用户ID

总流量

 

日期

 

字段类型

String

 

double

 

String

 


1. 根据开始时间结束时间来查询流量的汇总情况

2. 2012 02 02 2012 02 03那么代表查这样日期之间的流量的汇总

 

热门网站统计-hot_url (Hive)

字段名

url

pv

 

日期

 

字段类型

String

 

bigint

 

String

 


1. 根据开始时间结束时间来查询URL的排序情况

2. 2012 02 02 2012 02 03那么代表查这样日期之间的URL的排序

 

Ip地址流量统计-user_traffic_by_ip (Hive)

字段名

流量

ip

 

日期

 

字段类型

double

 

bigint

 

String

 


 

1.根据开始时间结束时间来查询IP的流量汇总情况

2. 2012 02 02 2012 02 03那么代表查这样日期之间的IP的流量汇总


根据IP或者URL导出用户包

根据输入的IP或者URL来导出用户的ID包

 

部分 技术点

Hive各类SQL的使用


部分 代码实现


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值