未名企鹅极客 | 医药流向终端名称精准匹配技术

最新推荐文章于 2022-06-14 14:12:25 发布

未名企鹅

最新推荐文章于 2022-06-14 14:12:25 发布

阅读量360

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WeimingPenguin/article/details/111567178

版权

本文由未名企鹅高级工程师Bob分享，探讨医药流向终端名称的精准匹配技术。文章介绍了匹配系统的主要功能，包括前置清洗、分词、成分信息识别和结构化搜索。在成分分析中，提出改进方案，如产生式系统和基于CRF的序列标注预测。此外，强调了特征工程在机器学习中的重要性，并展示了未名企鹅标准Live行业库在匹配任务中的优势。

摘要由CSDN通过智能技术生成

流向终端匹配任务提供面向标准行业库的映射能力，需要处理大量不规范的终端名称，其中包含商业公司特定的中英文简称编码、省略连锁总部信息的连锁门店、包含特殊字符的终端名称等等。

如何在任务处理阶段清除无效信息并提取有效的判定信息，通过特定搜索策略寻找到语义匹配的目标终端？这一期极客我们请到的是未名企鹅的高级工程师Bob，来谈一谈未名企鹅所采用的医药流向终端名称精准匹配技术。

在这里插入图片描述

医药流向终端名称精准匹配技术

1
流向终端名称匹配系统简介

匹配系统承担流向终端的自动搜索匹配功能，主要分为：

1、前置清洗
作用：清除干扰信息、统一转换符号

2、分词
作用：中文医药领域的终端名称分词引擎

3、渠道、类别、专有名词等成分信息识别
作用：针对分词序列识别短语上下文的成分信息

4、结构化搜索
作用：使用有效成分在标准行业库进行检索，对结果集进行打分排序，输出备选结果。前置清洗基于常见干扰特征库对噪声信息进行清除，保留有效信息用于后续分析；

中文分词领域有很多工具可以借鉴并且能力都比较强，如结巴、hanLP、pkuseg等，各自实现原理各不相同，有的基于字典匹配的最短路径图搜索，有的使用机器学习实现的序列标注模型，还有的单纯使用分类算法实现的感知机分词器等。业界对分词的研究与实践比较成熟，常规情况下可达95%，突破的难点主要集中在歧义、未登录新词的识别。

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
未名企鹅极客 | 医药流向终端名称精准匹配技术

流向终端匹配任务提供面向标准行业库的映射能力，需要处理大量不规范的终端名称，其中包含商业公司特定的中英文简称编码、省略连锁总部信息的连锁门店、包含特殊字符的终端名称等等。如何在任务处理阶段清除无效信息并提取有效的判定信息，通过特定搜索策略寻找到语义匹配的目标终端？这一期极客我们请到的是未名企鹅的高级工程师Bob，来谈一谈未名企鹅所采用的医药流向终端名称精准匹配技术。医药流向终端名称精准匹配技术1流向终端名称匹配系统简介匹配系统承担流向终端的自动搜索匹配功能，主要分为：1、前置清洗作用：清除
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。