这个需求的故事是这样的:
在对接物流仓储业务过程中,有一回接到了需求,是针对目前提取到的物流信息,清洗出来发货地址;业务跟我说技术那边可以洗出来,然后我就跑去咨询技术是否已经清洗好了做存储,聊下来发现,他们是花钱去调用的别人的接口进行解析,6分钱一条,其实算下来还是挺贵的,然后就反馈了这个信息。
根据我的认知python是可以做这件事的,但是介于公司没有提供直接的接口,数据一来一回挺麻烦,想试着用powerbi试试,发现还真的可以。
一、数据表准备
准备2张表,A表是物流信息表,B表是省份以及城市的明细表;其实就是对2张表进行模糊匹配,在A 表展现得到匹配到的B 表结果。表如下:
二、对2张表进行模糊匹配
选择合并查询,选定你需要的匹配列,由于我需要清洗到城市,物流信息也会展现城市信息,所以选择物流信息与城市名进行模糊匹配。
相似性阈值:0-1之间 ,1就是精准匹配,由于物流信息文字较多,我选择的是0.2,基本上等于只要出现城市表中的城市,就等于匹配上了。
三、选择需要展示的列
结果是这样的,需要你选择展现形式,我这里是选择了展示省份以及城市。到这里清洗就已经完成了。