数据字典模块设计_学习之大数据项目笔记第五篇6【数仓模块-字典构建篇】

1 【数仓模块-字典构建篇】

1.1 地理位置字典构建

1.1.1 需求说明

在埋点日志中,有用户的地理位置信息,但是原始数据形式是GPS坐标;

但是GPS坐标在后续(地理位置维度分析)的分析中不好使用!

直接去匹配两个哪怕距离很近的gps坐标,很可能都匹配不上!

gps坐标的匹配,不应该做这种精确匹配,应该做范围匹配;

公司通过某渠道,收集到一批地理位置信息数据,只是数据格式需要加工:

975258d6457f8cabb6bc9dc67292af0b.png

加工的结果格式要求为:

GEOHASH码, 省,市,区

a8fc3b046a8fb2ab895ae0eeff5c676f.png

结果表数据,存放在HDFS即可(parquet格式);

具体实现方式不限!

1.1.2 新技能:GeoHash编码

在geo领域,gps坐标,可以转化成一种编码:GeoHash编码(如wx3y),这种码有一个特点:

两个gps坐标的位置越近,这两个坐标的geohash码的相同的位数更多,只有更少的几位尾数不同!如下所示:

wx3y569

wx3y434

GeoHash编码的基本原理:

不断地将地球的经度、纬度范围,进行二分,输出1/0比特,形成一串二进制码(二分的次数越多,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值