流向终端匹配任务提供面向标准行业库的映射能力,需要处理大量不规范的终端名称,其中包含商业公司特定的中英文简称编码、省略连锁总部信息的连锁门店、包含特殊字符的终端名称等等。
如何在任务处理阶段清除无效信息并提取有效的判定信息,通过特定搜索策略寻找到语义匹配的目标终端?这一期极客我们请到的是未名企鹅的高级工程师Bob,来谈一谈未名企鹅所采用的医药流向终端名称精准匹配技术。
医药流向终端名称精准匹配技术
1
流向终端名称匹配系统简介
匹配系统承担流向终端的自动搜索匹配功能,主要分为:
1、 前置清洗
作用:清除干扰信息、统一转换符号
2、 分词
作用:中文医药领域的终端名称分词引擎
3、 渠道、类别、专有名词等成分信息识别
作用:针对分词序列识别短语上下文的成分信息
4、 结构化搜索
作用:使用有效成分在标准行业库进行检索,对结果集进行打分排序,输出备选结果。前置清洗基于常见干扰特征库对噪声信息进行清除,保留有效信息用于后续分析;
中文分词领域有很多工具可以借鉴并且能力都比较强,如结巴、hanLP、pkuseg等,各自实现原理各不相同,有的基于字典匹配的最短路径图搜索,有的使用机器学习实现的序列标注模型,还有的单纯使用分类算法实现的感知机分词器等。业界对分词的研究与实践比较成熟,常规情况下可达95%,突破的难点主要集中在歧义、未登录新词的识别。