未名企鹅极客 | 医药流向终端名称精准匹配技术

本文由未名企鹅高级工程师Bob分享,探讨医药流向终端名称的精准匹配技术。文章介绍了匹配系统的主要功能,包括前置清洗、分词、成分信息识别和结构化搜索。在成分分析中,提出改进方案,如产生式系统和基于CRF的序列标注预测。此外,强调了特征工程在机器学习中的重要性,并展示了未名企鹅标准Live行业库在匹配任务中的优势。
摘要由CSDN通过智能技术生成

流向终端匹配任务提供面向标准行业库的映射能力,需要处理大量不规范的终端名称,其中包含商业公司特定的中英文简称编码、省略连锁总部信息的连锁门店、包含特殊字符的终端名称等等。

如何在任务处理阶段清除无效信息并提取有效的判定信息,通过特定搜索策略寻找到语义匹配的目标终端?这一期极客我们请到的是未名企鹅的高级工程师Bob,来谈一谈未名企鹅所采用的医药流向终端名称精准匹配技术。

在这里插入图片描述

医药流向终端名称精准匹配技术

1
流向终端名称匹配系统简介

匹配系统承担流向终端的自动搜索匹配功能,主要分为:

1、 前置清洗
作用:清除干扰信息、统一转换符号

2、 分词
作用:中文医药领域的终端名称分词引擎

3、 渠道、类别、专有名词等成分信息识别
作用:针对分词序列识别短语上下文的成分信息

4、 结构化搜索
作用:使用有效成分在标准行业库进行检索,对结果集进行打分排序,输出备选结果。前置清洗基于常见干扰特征库对噪声信息进行清除,保留有效信息用于后续分析;

中文分词领域有很多工具可以借鉴并且能力都比较强,如结巴、hanLP、pkuseg等,各自实现原理各不相同,有的基于字典匹配的最短路径图搜索,有的使用机器学习实现的序列标注模型,还有的单纯使用分类算法实现的感知机分词器等。业界对分词的研究与实践比较成熟,常规情况下可达95%,突破的难点主要集中在歧义、未登录新词的识别。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值