文档标签化的几种方案

前言:

文档标签化, 就是从文档中抽取若干标签,来定义和表示文本,使文档更容易的进行计算、索引、表示。当然前提是已经有了一个标签词库。量少的话可以人工进行编写业务相关词典、量大的话可以用机器生成然后进行人工审核。

 

方案一:直接词典匹配

这里主要借助于像字典数、多摸匹配等方案,对文档中的标签进行识别。

优点是速度快, 缺点是容易对一些超短的tag进行误识别(语境中可能不是一个tag);不能识别意思相近的tag。

 

方案二:使用NER进行识别

NER的模型较多,这里就不再赘述, 在数据构造上就是把tag按照BIO的模式进行标注然后加入模型进行训练。

优点:可以缓解一部分tag由于语境的误识别问题, 但是会引入新的问题,有时标注的序列没有在词典中。未在词典中的词可能是一个错词,也可能是一个可用的tag词, 可以辅助我们完善词典。

财务@运营@供应商@对账@售后<->每周与财务、仓储、运营及供应商进行对账与结款,对售后及退货情况进行沟通及处理
结果 : ['财务', '运营', '供应商', '对账', '售后']

方案三 :多标签分类方案:

训练集构建方面:就是句子+词典匹配的tag词。

优点是可以解决意思相近tag的标注。难点主要是如果标签数量巨大,会带来建模和训练的问题。

效果如下:

抠图@图片后期处理<->抠抠图及图片后期处理
结果: ['抠图', '图片后期处理', '抠图处理', '抠像', '图片处理', '后期处理', '图片后期']

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

花咪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值