NER解决方案——词典匹配

loveitlovelife

已于 2023-03-12 18:35:51 修改

阅读量860

点赞数

分类专栏： nlp 文章标签：知识图谱人工智能自然语言处理

于 2023-03-12 18:22:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/loveitlovelife/article/details/129478964

版权

nlp 专栏收录该内容

21 篇文章 4 订阅

订阅专栏

文章介绍了命名实体识别（NER）的基本概念，包括BIO等标注方法。重点讨论了词典匹配在工业界的运用，特别是美团如何通过实体离线挖掘和字符匹配算法提高识别精度。实体挖掘涉及用户UGC、搜索日志等数据源，以及深度语义网络的短语质量评估。

摘要由CSDN通过智能技术生成

文章目录

概述

NER全称是命名实体识别（Named Entity Recognition, NER），旨在识别文本中专有名词，如位置、组织和时间。

举例：

输入：小明在北京大学的燕园看了中国男篮的一场比赛

输出：B-PER，E-PER，O, B-ORG，I-ORG，I-ORG，E-ORG，O，B-LOC，E-LOC，O，O，B-ORG，I-ORG，I-ORG，E-ORG，O，O，O，O

其中，“小明 ”以PER，“北京大学”以ORG，“燕园”以LOC，“中国男篮”以ORG为实体类别分别挑了出来。

标注方法：

序列标注：

1.BIO：标识实体的开始、中间和非实体部分

2.BMES：增加S单个实体情况的标注

3.BIOES：增加E实体的结束标识

指针标注：

1.单指针（二维）

2.双指针（一维）

应用场景：

知识图谱、文本理解、对话系统、信息检索、槽位抽取

词典匹配

概述：

词典匹配是工业界最常用的NER技术，尤其是垂直领域的NER任务。经过离线实体库不断的丰富完善累积后，在线使用词典匹配进行实体识别目前美团基于实体库在线ner识别率可以达到92%（2020）。

重点工作：实体离线挖掘、字符匹配算法

优点：速度快，可解释性强，且精度高

缺点：长期维护、未登录实体

词典匹配——实体离线挖掘

实体来源：

1.领域UGC、会话文本等非结构化数据；2.用户搜索日志；3.百科词条、领域信息库

业界方案：
美团基于用户UGC垂直领域的实体挖掘方案：

Step1：候选序列挖掘。频繁连续出现的词序列，是潜在新型词汇的有效候选。

Step2：基于远程监督的大规模有标记语料生成。利用领域已累积实体词典作为远程监督词库，将Step1中候选序列与实体词典的交集作为训练正例样本。将基于n-gram的候选短语中不匹配任何知识库的高质量短语的短语放在负向池中。

Step3: 基于深度语义网络的短语质量评估。我们利用搜索日志数据对Step2中生成的大规模正负例池数据进行远程指导，将有大量搜索记录的词条作为有意义的关键词。我们将正例池与搜索日志重合的部分作为模型正样本，而将负例池减去搜索日志集合的部分作为模型负样本，进而提升训练数据的可靠性和多样性。

详细内容见 https://tech.meituan.com/2020/07/23/ner-in-meituan-nlp.html

词典匹配—字符匹配算法

1.构建字典树

2.双向匹配算法

正向最大匹配：从前往后依次匹配子句是否是词语，以最长的优先。

后向最大匹配：从后往前依次匹配子句是否是词语，以最长的优先。

3.双向最大匹配原则：

覆盖 token 最多的匹配。

句子包含实体和切分后的片段，这种片段+实体个数最少的。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
NER解决方案——词典匹配

NER全称是命名实体识别（Named Entity Recognition, NER），旨在识别文本中专有名词，如位置、组织和时间。输入：小明在北京大学的燕园看了中国男篮的一场比赛输出：B-PER，E-PER，O, B-ORG，I-ORG，I-ORG，E-ORG，O，B-LOC，E-LOC，O，O，B-ORG，I-ORG，I-ORG，E-ORG，O，O，O，O其中，“小明 ”以PER，“北京大学”以ORG，“燕园”以LOC，“中国男篮”以ORG为实体类别分别挑了出来。
复制链接

扫一扫

专栏目录

loveitlovelife CSDN认证博客专家 CSDN认证企业博客

码龄7年

90: 原创

5万+: 周排名

3万+: 总排名

11万+: 访问

: 等级

1835: 积分

138: 粉丝

83: 获赞

29: 评论

238: 收藏

私信

关注

热门文章

分类专栏

最新评论

web安全-跨站脚本攻击XSS
百锦再@新空间代码工作室: 这篇关于web安全中跨站脚本攻击XSS的文章简直是犹如一束明亮的光芒，深入浅出地解释了XSS的原理和危害，让我们对网络安全问题有了更清晰的认识。作者深入浅出地解释了XSS攻击的工作原理，为我们揭示了网络安全的重要性。这篇文章不仅让我们了解了XSS攻击的原理，更让我们认识到在网络世界中保护个人信息的重要性。感谢作者为我们提供了如此详尽而深刻的解析，期待更多的精彩文章！
web安全-跨站脚本攻击XSS
ha_lydms: 我很喜欢作者对于时事的评论，总是能够给出独到的见解。
web安全暴力破解-SQL注入简介
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
向量检索的索引构建算法综述
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/7989251, 请多输出高质量博客, 帮助更多的人
Elatstic search 8.0 在nlp任务中的实践
山塘小鱼儿: If this is a private repository, make sure to pass a token having permission to this repo with `use_auth_token` or log in with `huggingface-cli login` and pass `use_auth_token=True`.

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。