实习认知笔记day4

指标7: 统计发送人的手机型号分布情况基于Hive数仓实现需求开发:

.1 建库建表、加载数据

建库建表

--如果数据库已存在就删除 drop database if exists db_msg cascade ; --创建数据库 create database db_msg ; --切换数据库 use db_msg ; --列举数据库 show databases ;

2.2 ETL数据清洗:

原始数据内容

数据来源: 聊天业务系统中导出的2021年11月01日一天24小时的用户聊天数据,以TSV文本形式存储在文件中

数据问题

1.当前数据中,有一些数据的字段为空, 不是合法数据

2.统计每天、每个小时的消息量, 但是数据中没有天和小时字段,只有整体时间字段,不好处理

3.对经度和维度构建地区的可视化地图, 但是数据中GPS经纬度为一个字段,不好处理

ETL实现

需求指标统计

指标1:统计今日消息总量

指标2: 统计每小时消息量、发送和接收用户数

指标3: 统计今日各地区发送消息总量

指标4: 统计今日发送和接收用户人数

指标5: 统计发送消息条数最多的Top10用户

指标6: 统计接收消息条数最多的Top10用户

指标7: 统计发送人的手机型号分布情况

指标8: 统计发送人的操作系统分布

  • 6
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值