第一部分: 需求分析
用户上网区域分布及变化-user_online_info_area(Hive)
字段名 | 地区 | 用户数
| 日期
|
字段类型 | String
| bigint
| String
|
1. 根据开始时间结束时间来查询用户的变化情况
2. 如2012 02 02 ,2012 02 03,那么代表查这样日期之间的用户数
用户上网流量统计-user_online_traffic(Hive)
字段名 | 用户ID | 总流量
| 日期
|
字段类型 | String
| double
| String
|
1. 根据开始时间结束时间来查询流量的汇总情况
2. 如2012 02 02 ,2012 02 03那么代表查这样日期之间的流量的汇总
热门网站统计-hot_url (Hive)
字段名 | url | pv
| 日期
|
字段类型 | String
| bigint
| String
|
1. 根据开始时间结束时间来查询URL的排序情况
2. 如2012 02 02 ,2012 02 03那么代表查这样日期之间的URL的排序
Ip地址流量统计-user_traffic_by_ip (Hive)
字段名 | 流量 | ip
| 日期
|
字段类型 | double
| bigint
| String
|
1.根据开始时间结束时间来查询IP的流量汇总情况
2. 如2012 02 02 ,2012 02 03那么代表查这样日期之间的IP的流量汇总
根据IP或者URL导出用户包
根据输入的IP或者URL来导出用户的ID包
第二部分: 技术点
Hive各类SQL的使用
第三部分: 代码实现