指标7: 统计发送人的手机型号分布情况基于Hive数仓实现需求开发:
.1 建库建表、加载数据
建库建表
--如果数据库已存在就删除 drop database if exists db_msg cascade ; --创建数据库 create database db_msg ; --切换数据库 use db_msg ; --列举数据库 show databases ;
2.2 ETL数据清洗:
原始数据内容
数据来源: 聊天业务系统中导出的2021年11月01日一天24小时的用户聊天数据,以TSV文本形式存储在文件中
数据问题
1.当前数据中,有一些数据的字段为空, 不是合法数据
2.统计每天、每个小时的消息量, 但是数据中没有天和小时字段,只有整体时间字段,不好处理
3.对经度和维度构建地区的可视化地图, 但是数据中GPS经纬度为一个字段,不好处理
ETL实现
需求指标统计
指标1:统计今日消息总量
指标2: 统计每小时消息量、发送和接收用户数
指标3: 统计今日各地区发送消息总量
指标4: 统计今日发送和接收用户人数
指标5: 统计发送消息条数最多的Top10用户
指标6: 统计接收消息条数最多的Top10用户
指标7: 统计发送人的手机型号分布情况
指标8: 统计发送人的操作系统分布