黑马畅聊项目分析
数据问题
问题1:当前数据中,有一些数据的字段为空, 不是合法数据
问题2:需求中,需要统计每天、每个小时的消息量, 但是数据中没有天和小时字段,只有整体时间字段,不好处理
问题3:需求中,需要对经度和维度构建地区的可视化地图, 但是数据中GPS经纬度为一个字段,不好处理
ETL需求
需求1:对字段为空的不合法数据进行过滤
• Where过滤
需求2:通过时间字段构建天和小时字段
• Substr函数
需求3:从GPS的经纬度中提取经度和维度
• Split函数
需求4:将ETL以后的结果保存到一张新的Hive表中
• Create table …… as select ……
ETL实现
查看结果
select
msg_time,dayinfo,hourinfo,sender_gps,sender_lng,sender_lat from db_msg.tb_msg_etl limit 10;