工业界NER

be_humble

已于 2023-05-04 17:00:54 修改

阅读量471

点赞数

文章标签：人工智能机器学习 python

于 2023-05-04 16:59:50 首次发布

本文链接：https://blog.csdn.net/be_humble/article/details/130490766

版权

文章探讨了在搜索领域中，实体识别（NER）面临的挑战，包括新实体的快速增加、非标准化表达的处理、高性能需求以及模型预测的效率问题。采用‘实体词典匹配+模型预测’的方法，利用CRF打分器、Bert蒸馏模型等技术提高NER效果，并讨论了知识增强和在线预测加速的策略。

摘要由CSDN通过智能技术生成

由于工业界，比如搜索领域，文本领域实体识别往往除了在各个label下f1-score达到更高的要求以外，还需要考虑成本，效率，以及ner抽取出实体的下游应用场景的配合使用等情况。query-ner问题一般具有以下特点：

新增实体数量庞大且增速较快：业务领域发展迅速，新店、新商品、新服务品类层出不穷；用户Query往往夹杂很多非标准化表达、简称和热词（如“牵肠挂肚”、“吸猫”等），这对实现高准确率、高覆盖率的NER造成了很大挑战。
领域相关性强：搜索中的实体识别与业务供给高度相关，除通用语义外需加入业务相关知识辅助判断，比如“剪了个头发”，通用理解是泛化描述实体，在搜索中却是个商家实体。
性能要求高：从用户发起搜索到最终结果呈现给用户时间很短，NER作为DQU的基础模块，需要在毫秒级的时间内完成。近期，很多基于深度网络的研究与实践显著提高了NER的效果，但这些模型往往计算量较大、预测耗时长，如何优化模型性能，使之能满足NER对计算时间的要求，也是NER实践中的一大挑战。

整体框架使用“实体词典匹配+模型预测”的方法实现