主数据管理对于医药工业来讲是重中之重,然而在实际管理中总是被杂乱不堪的数据折磨,已有的主数据也无法完成很好的匹配、补充。未名企鹅的数据匹配服务很好的帮助解决这些问题。
本期极客栏目,邀请到未名企鹅的研发总监Clark,从需要数据匹配的原因、数据转换的规则、数据匹配规则的智能识别等几方面深入的介绍了数据匹配服务。
01
业务背景
数据应用分析的基础是治理好企业所存储的各种脏数据,使它们能为分析所使用。药企现有系统收集存储的第一手数据多为脏数据,很多不准或者不全。
这里面的主要原因是:同一件事物,如经销商、零售、医院等,经不同的人员,录入各类系统时,有着不同的表述,包括不同的简称、俗称、缩写、起名等。由此导致不同线上线下渠道汇总来的同一个终端名称各异,企业内部数据与商品销售流量数据无法打通,导致药企内部数据统计分析费时费力。
数据匹配服务,就是帮助药企对脏数据进行标准化,和已有的主数据进行匹配或者补充。
例如,药品的原始流向数据表:
图片
原始数据标准化表:
图片
对比两个表,可以发现,编号A,B,C的终端名称是和主数据中终端名称是100%一样的,编号D,E,F的终端名称和主数据终端名称是不一致的。
在做数据匹配的工作时,编号A,B,C这样的数据可以由计算机处理为完全匹配,编号D,E,F的数据&