论文题目:《A Shared-Private Representation Model with Coarse-to-Fine Extraction for Target Sentiment Analysis》
这篇文章主要是对span-based模型的改进,先回顾下span-based模型,其先是预测起止点概率,再是利用广度启发式算法选择多个目标实体,收集其起始和结束位置,然后是根据起止位置提取隐藏状态进行极性预测
本篇论文作者提出其目标实体提取与极性分类之间的关系没有得到很好地利用,同时设置阈值提出多个实体对对长短语实体不友好,基于此些想法提出新的共享私有表示模型(SPRM),设计一个共享的私有网络,分别提取共享信息和私有信息,同时采用从粗到精的启发式提取算法,首先通过匹配最近的开始和结束索引来获得目标的近似间隔,然后通过扩展策略来提取目标
来看一下他的模型
很简洁明了,这个框架同时学习目标提取和极性分类的共享特征和私有特征,一个共享的BERT网络编码两个子任务的共享信息,两个私有的bilstm获得每个任务的私有表示。另外的重点就是其设计了一种从粗到精的算法,该算法首先通过匹配最近的开始和结束索引(无任何阈值)来获得目标的近似间隔,然后如果预测相邻单词作为开始/结束边界,则通过扩展间隔来获得最终目标。利用该算法,可以合理地提取任何长度的目标,因为最近策略避免了过长的目标,而扩展策略避免了丢失目标实体。
Shared-Private Model
中间的Bert计算:
两边的私有lstm:
然后设计融合模块,获取两个子任务的最终特征,由于私有BiLSTM输出的维数是共享BERT的两倍,我们首先通过全连接层将私有模块的输出投影到与共享模块同一向量空间
从粗到精的启发式提取算法
在SPAN中提出了一种基于跨度标记方案的启发式算法,并验证了基于跨度的标记方案在目标提取方面比序列标记方法表现更好。然而,启发式算法需要手动设置阈值来提取目标,并且由于长度惩罚因子的存在,其在目标短语上的性能很差,在从粗到细的算法中,通过匹配最近的起始和结束索引而不是手动设置阈值,可以获得目标的近似间隔,然后通过采用扩展策略以合理的长度提取最终目标,如果相邻单词被预测为开始/结束边界,则会延长间隔。包括三个步骤:
- 边界预测获取开始和结束位置的概率预测
先预测概率
再是进行了一个sigmoid转换
这就得到一系列的起点集合和重点集合
- 通过最近策略生成目标候选间隔
给定开始和结束位置的预测标签,我们可以得到作为开始/结束边界预测的数量。由于需要提取足够多的候选点以避免遗漏正确的候选点,我们使用其中的最大值最为目标数nb。然后使用最近策略,将end集合中最近的结束索引与每个开始索引匹配,获得开始目标候选集Cs。同样,也获得了最终目标候选集Ce。最后得到候选区间
- 采用扩展策略生成最终目标
对于目标短语,它们中间的词也通常被预测为起始/结束位置,比如‘integrate bluetooth devices’,‘blue’可能会被预测为开始位置,所以如果相邻单词预测为起始或结束边界,则可以在左侧和右侧扩展每个可能的候选词。具体过程如下
文中主要创新点是这个从粗到细的启发式目标提取算法,其实看的时候没有多么惊叹,从理论上感觉不到多大优势,实验结果是提升1到2的百分点,
另外是分设bilistm提取私有信息,这点跟之前的模型有点类似,共享一个bert一定程度上减少训练参数,同时较好地连接了两个子任务,其综合实验结果如下
是当时的SOTA了,综合提升还是蛮大的