- 数据(/hadoopProject1712/18-07-31)
- 清洗数据(hadoopProject1712.day_users_logs_dis)
- 数据去重+新增用户(/hadoopProject1712/newuseradd/18-07-31)
- 历史用户信息表(hadoopProject1712.his_user_info)
- 创建一个新增用户信息表(hadoopProject1712.day_new_user_info)
问题1 : his_user_info 这个表里面没有数据 (历史表--第一天没有数据)
问题2 : day_users_logs_dis(去重过的数据--老用户+新用户) 和 his_user_info(历史表--老用户) 得到 每天的新增用户的信息表
- 把新用户信息添加到老用户
循环操作即可!!!!!!!!!!!!!!!!!!!!!!
上述操作,我们就实现了一个新增用户的明细表 ,只用明细表是不够的,
得到的是报表,报表都是各种汇总数据
- 接下来创建一个汇总表( hadoopProject1712.day_new_user_count)
datepart=20181119;
|--------------------------------------------------------------------------------------------------------
2018-11-19 QQ吃鸡 2.0 应用宝 上海市 有多少新用户???
|
5款app
50个 发行渠道
200个 城市
5个 版本
维度分为 : 渠道(具体渠道/所有渠道),版本(具体版本/所有版本),城市 (具体城市/ 所有城市)
|公司老总,给我11-19日,QQ吃鸡有多少新用户?
| QQ吃鸡在应用宝,上海市 上有多少新用户?
| 360
| 豌豆荚
| 小米商城
| …
|
|一共有 2 * 2 * 2 = 8种维度需要考虑
|
| 1、某一天 某款应用 具体版本 具体渠道 具体城市有多少新增用户 |
| 2、某一天 某款应用 具体版本 具体渠道 所有城市有多少新增用户 |
| 3、某一天 某款应用 具体版本 所有渠道 具体城市有多少新增用户 |
| 4、某一天 某款应用 具体版本 所有渠道 所有城市有多少新增用户 |
| 5、某一天 某款应用 所有版本 具体渠道 具体城市有多少新增用户 |
| 6、某一天 某款应用 所有版本 具体渠道 所有城市有多少新增用户 |
| 7、某一天 某款应用 所有版本 所有渠道 具体城市有多少新增用户 |
| 8、某一天 某款应用 所有版本 所有渠道 所有城市有多少新增用户 |
把8种维度汇总到汇总表中!
查看这个结果一共有多少条新增用户:
select count(*) from hadoopProject1712.day_new_user_count where datepart=20181119;
结束!!!!!! 得到的就是新增用户的数量。