前沿重器[17] | 美团搜索ner技术启示（下）-CSDN博客

本文链接：https://blog.csdn.net/baidu_25854831/article/details/120928865

前沿重器

栏目主要给大家分享各种大厂、顶会的论文和分享，从中抽取关键精华的部分和大家分享，和大家一起把握前沿技术。具体介绍：仓颉专项：飞机大炮我都会，利器心法我还有

近期，我再次总结了我的历史文章，累积起来有50w字，百余篇文章了，有兴趣可以拿来看看，获取方式：七夕清流，百余篇累计50w字文章合集发布。

往期回顾

随着文本层面的搜索向语义向量召回迭代（可能不少新人都不知道文本搜索了吧？），NER任务在搜索中的地位好像有所下降，但是作为关键的理解和抽取技术，仍有重要的应用场景，因此好好掌握还是非常关键的。

这次给大家以美团的技术分享为依据和思路指导，给大家介绍一下业界处理ner问题的基本方案，这篇文章写的非常详细，有时间大家绝对要好好理解吸收一遍。

原文章摆这里：https://mp.weixin.qq.com/s/632T-bwnKU2Ui4Uidpoylw

由于内容众多，一篇实在写不完，所以我分两篇来整：

美团搜索ner技术启示（上）：场景、选型和实体匹配技术。
美团搜索ner技术启示（下）：模型和启示。

模型

上一期提到，模型的主要责任就是识别长尾、未登陆的结果，首先，我们学习一下美团的模型迭代历程，这个迭代成一方面伴随着技术的变迁，另一方面也记录业务逐渐拓展下模型的应对能力。

2018年以前是比较经典的CRF模型，而后升级为lstm-crf，然后从整流开始逐步从蒸馏bert到bert完全体，再到后续对bert的魔改和场景、知识适配。而在技术上，也是逐步从离线预计算到蒸馏再到大模型，这里面所透露的信息都很多，一方面业务效果优先的情况下，大模型会是趋势，而大模型的短板主要在于性能，性能在逐步解决后大模型也就得以上线。围绕着NER任务，模型构建主要面临的是这几个问题：

性能。
领域强相关。
标注数据。

性能问题，从上述的迭代流程能看到其优化流程，领域相关的问题则是通过各种业务数据的引入，或增强或嵌入的方式优化NER方法，而针对标注数据的问题，则采用了一种弱监督的NER方法来进行优化。

目前美团主要使用的是BERT和BERT-LR级联模型。

BERT

相信BERT大家都不陌生了，但阻碍其应用的最大问题就是他的推理速度，美团的应对则是从蒸馏和加速两个方向去做。

模型压缩领域的主要操作就是剪枝和蒸馏，美团实验表明剪枝的损失不小，所以就剩下蒸馏这条路，这种方式并不新颖，2015年Hinton大神就已经提到过，通过Teacher模型对Student的学习，能让student逐步逼近teacher模型的结果，从而完成蒸馏。而在美团的实践经验和场景下，有如下明确的模型建议：

模型上更建议用推理速度快的网络进行蒸馏，保证在线运行速度。（IDCNN-CRF）
训练过程中使用标签近似（因为NER任务本身的特定）来指导学习。

而在加速上，文章提供了3种方法：

算子融合。提到了基于NV的Faster Transformer并进行了二次的开发，在稳定性和易用性上做了一定的改进，加速的核心主要在于降低Kernel Launch次数和提高小算子访存效率。
Batching。在流量巨大的互联网场景，完全可以凑成batch再来进行计算以降低Kernel Launch次数、充分利用多个GPU SM。
混合精度。混合精度本质是可以减少显存开销，兼顾FP32的稳定和FP16的速度。