论文名称:OpenTag: Open Attribute Value Extraction from Product Profiles
论文出处:KDD 2018
论文地址:https://arxiv.org/pdf/1806.01264.pdf
论文要点
- 文章基于产品说明书数据。
- 将属性值抽取转化为序列标注问题处理。
- 基本模型: bi-lstm + attention + CRF
- 采用主动学习方法
数据示例
标题中包含两种待提取的属性值: 规格 和 口味 。
模型pipeline
两个难题
文章中提出此类任务中的两个难题
- 如何从非结构化文本中提取感兴趣的属性值? 尤其是当要提取的属性值在之前的数据中未曾出现过,如何处理?
- 能否通过有限的标注数据建立模型?能否提高模型的可解释性?
任务转化
We formulate our problem as a sequence tagging task similar to named entity recognition (NER).
将属性抽取转化为类似命名实体识别的序列化标注问题来处理。
数据形式定义
概括来说就是从非结构化文本中提取我们所关心属性的对应属性值。一个属性可能对应多个属性值,如口味属性可能具有多种不同属性值。
本文采取的序列标注方式为{B,I,O,E}
模型结构
模型结构以目前的角度看已经属于比较经典的模型,这里不再赘述。主要就是在经典的bi-lstm+CRF模型中添加了attention层。
attention层实现方式如下:
ACTIVE LEARNING
本文提出的主动学习策略:
主动学习的主要思路是根据少量的有标签样本训练初始模型,对未知样本进行预测,然后设定询问策略,将符合标准的样本进行标注,加入有标签训练集,如此循环,直到达到设定的停止标准。
本文主动学习关键点在于询问策略制定,采用了标签翻转(tag flips)作为评判指标,
通俗讲就是,选择一组序列中,在多个epoch内,模型预测标签变化次数最多的序列,进行人工标注。
实验与结果
此部分不再详细记录了,可以直接查看论文。