前言:
文档标签化, 就是从文档中抽取若干标签,来定义和表示文本,使文档更容易的进行计算、索引、表示。当然前提是已经有了一个标签词库。量少的话可以人工进行编写业务相关词典、量大的话可以用机器生成然后进行人工审核。
方案一:直接词典匹配
这里主要借助于像字典数、多摸匹配等方案,对文档中的标签进行识别。
优点是速度快, 缺点是容易对一些超短的tag进行误识别(语境中可能不是一个tag);不能识别意思相近的tag。
方案二:使用NER进行识别
NER的模型较多,这里就不再赘述, 在数据构造上就是把tag按照BIO的模式进行标注然后加入模型进行训练。
优点:可以缓解一部分tag由于语境的误识别问题, 但是会引入新的问题,有时标注的序列没有在词典中。未在词典中的词可能是一个错词,也可能是一个可用的tag词, 可以辅助我们完善词典。
财务@运营@供应商@对账@售后<->每周与财务、仓储、运营及供应商进行对账与结款,对售后及退货情况进行沟通及处理
结果 : ['财务', '运营', '供应商', '对账', '售后']
方案三 :多标签分类方案:
训练集构建方面:就是句子+词典匹配的tag词。
优点是可以解决意思相近tag的标注。难点主要是如果标签数量巨大,会带来建模和训练的问题。
效果如下:
抠图@图片后期处理<->抠抠图及图片后期处理
结果: ['抠图', '图片后期处理', '抠图处理', '抠像', '图片处理', '后期处理', '图片后期']