一、背景
由于工业界,比如搜索领域,文本领域实体识别往往除了在各个label下f1-score达到更高的要求以外,还需要考虑成本,效率,以及ner抽取出实体的下游应用场景的配合使用等情况。query-ner问题一般具有以下特点:
- 新增实体数量庞大且增速较快:业务领域发展迅速,新店、新商品、新服务品类层出不穷;用户Query往往夹杂很多非标准化表达、简称和热词(如“牵肠挂肚”、“吸猫”等),这对实现高准确率、高覆盖率的NER造成了很大挑战。
- 领域相关性强:搜索中的实体识别与业务供给高度相关,除通用语义外需加入业务相关知识辅助判断,比如“剪了个头发”,通用理解是泛化描述实体,在搜索中却是个商家实体。
- 性能要求高:从用户发起搜索到最终结果呈现给用户时间很短,NER作为DQU的基础模块,需要在毫秒级的时间内完成。近期,很多基于深度网络的研究与实践显著提高了NER的效果,但这些模型往往计算量较大、预测耗时长,如何优化模型性能,使之能满足NER对计算时间的要求,也是NER实践中的一大挑战。
二 、方法
整体框架使用“实体词典匹配+模型预测”的方法实现
-
通过训练crf打分器,对实体词典结果进行打分,当实体词典无匹配或匹配结果打分低时,进行模型预测。
-
实体词典构造
- 从结构化信息中获取,如商家spuname,品牌,品类名
- 非结构化文本中挖掘,如商品详情,商家介绍等挖掘。
- 新词发现
- 无监督:通过紧密度,自由度指标进行筛选
- 有监督:专家设计语法,规则进行挖掘
- 远程监督:少样本学习
-
在线词表匹配策略
-
双向最大匹配
这种策略比较简陋,对词库准确度和覆盖度要求极高
-
crf分词预处理
-
pattern正则表达式修复
-
-
模型预测
-
bert蒸馏
根据无标签数据的多少,可以使用logtis,分布,值近似实现蒸馏
-
线上模型预测加速
- 混合精度
- batching
- 算子融合
-
知识增强
- 结合lattice,flat融合词特征
-
两阶段ner尝试
-
弱监督ner
-