工业界NER

文章探讨了在搜索领域中,实体识别(NER)面临的挑战,包括新实体的快速增加、非标准化表达的处理、高性能需求以及模型预测的效率问题。采用‘实体词典匹配+模型预测’的方法,利用CRF打分器、Bert蒸馏模型等技术提高NER效果,并讨论了知识增强和在线预测加速的策略。
摘要由CSDN通过智能技术生成

一、背景

由于工业界,比如搜索领域,文本领域实体识别往往除了在各个label下f1-score达到更高的要求以外,还需要考虑成本,效率,以及ner抽取出实体的下游应用场景的配合使用等情况。query-ner问题一般具有以下特点:

  • 新增实体数量庞大且增速较快:业务领域发展迅速,新店、新商品、新服务品类层出不穷;用户Query往往夹杂很多非标准化表达、简称和热词(如“牵肠挂肚”、“吸猫”等),这对实现高准确率、高覆盖率的NER造成了很大挑战。
  • 领域相关性强:搜索中的实体识别与业务供给高度相关,除通用语义外需加入业务相关知识辅助判断,比如“剪了个头发”,通用理解是泛化描述实体,在搜索中却是个商家实体。
  • 性能要求高:从用户发起搜索到最终结果呈现给用户时间很短,NER作为DQU的基础模块,需要在毫秒级的时间内完成。近期,很多基于深度网络的研究与实践显著提高了NER的效果,但这些模型往往计算量较大、预测耗时长,如何优化模型性能,使之能满足NER对计算时间的要求,也是NER实践中的一大挑战。

二 、方法

整体框架使用“实体词典匹配+模型预测”的方法实现

  1. 通过训练crf打分器,对实体词典结果进行打分,当实体词典无匹配或匹配结果打分低时,进行模型预测。

  2. 实体词典构造

    1. 从结构化信息中获取,如商家spuname,品牌,品类名
    2. 非结构化文本中挖掘,如商品详情,商家介绍等挖掘。
    3. 新词发现
      1. 无监督:通过紧密度,自由度指标进行筛选
      2. 有监督:专家设计语法,规则进行挖掘
      3. 远程监督:少样本学习
  3. 在线词表匹配策略

    1. 双向最大匹配

      这种策略比较简陋,对词库准确度和覆盖度要求极高

    2. crf分词预处理

    3. pattern正则表达式修复

  4. 模型预测

    1. bert蒸馏

      根据无标签数据的多少,可以使用logtis,分布,值近似实现蒸馏

    2. 线上模型预测加速

      1. 混合精度
      2. batching
      3. 算子融合
    3. 知识增强

      1. 结合lattice,flat融合词特征
    4. 两阶段ner尝试

    5. 弱监督ner

参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值