论文：HAMNER: Headword Amplified Multi-span Distantly Supervised Method for Domain Specific Named Entit

最新推荐文章于 2025-04-03 16:49:51 发布

YJII

最新推荐文章于 2025-04-03 16:49:51 发布

阅读量237

点赞数

分类专栏：论文记录文章标签： python 人工智能机器学习

本文链接：https://blog.csdn.net/Hekena/article/details/126513201

版权

论文记录专栏收录该内容

147 篇文章

订阅专栏

该博客介绍了HAMNER方法，这是一种针对特定领域命名实体识别的远程监督技术。它通过扩展字典来处理未覆盖的实体和同义词问题，利用词条相似性增加覆盖率。模型首先生成所有可能的跨度，然后使用神经模型预测类型，并通过动态规划确定实体。损失计算考虑了跨度位置的实体类型分布。这种方法旨在减少远程监督与完全监督方法之间的差距，提高实体识别质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HAMNER：用于特定领域命名实体识别的词条放大多跨度远程监督方法

前言

词条（Headword） 我们使用 (Zhou et al. 2005) 中提出的基于规则的方法来提取短语的词条。词组的中心词通常是词组的最后一个词。如果短语中有介词，则词条是介词之前的最后一个词。例如，cancer of the liver is cancer是headword。

论文核心

我们针对字典使用的局限性并提及边界检测。我们通过使用基于词条（headword）的非精确匹配，扩展字典来概括远程监督。我们应用一个函数来更好地加权匹配的实体提及。
文中目标：尽可能的减少远程监督方法和监督方法之间的gap.
文中创新点：文中认为，在实体边界识别错误的前提，可能会导致错误的产出，因此，应该先确定实体的边界，在确定实体的类型。

**在评价扩展之后的entity的质量时，**通过计算扩展的实体的headword和原有的entity的headword之间的相似度，确定的实体的质量。

字典：a collection of <entity mention, entity type>-tuple.

模型

第一阶段，我们生成长度不超过指定阈值的所有可能跨度，并使用经过训练的神经模型来预测这些跨度的类型。在第二阶段，我们应用基于动态规划的推理算法来确定实体提及及其类型。
在这里插入图片描述

字典扩充

生成伪注释：
在使用词典生成注释时，可能面临两个问题：
• 字典外实体提及。字典不经常更新是很常见的。然而，每天都会产生新的实体和概念。因此，字典的覆盖率一般不高。
• 同义词和拼写差异。大多数字典可能不会在一对同义词中同时包含这两个术语。他们通常坚持使用一种拼写形式（例如，英式或美式拼写）
**基本假设：**相似的词往往出现在相似的上下文中（Harris 1954），因此可能属于同一类型的概率很高。
在这里插入图片描述

hw(x) 是短语/实体 x 的词条，sim(x, y) 是 x 和 y 的词嵌入之间的余弦相似度。我们注意到，虽然基于词嵌入的非精确字符串匹配提高了字典的覆盖率，但它也带来了一些噪音。因此，我们使用 **τ1 来修剪那些不常见的词条（即第 1 行），并使用 τ2 来避免与不相似的词条匹配（即第 7 行）。**我们也只保留具有最高余弦相似度的类型（即第 8-12 行）。