open-domain targeted任务主要分两部分,第一步是把句子中的target检测出来,第二步是对target进行情感分类。
文章提出了一种基于新的数据标注方式的方法,解决了传统tag标注的搜索空间大且同一target下的不同单词可能被归入不同情感标签的缺点,以bert为基础模型进行了实验。
论文提出的Span-Based标注方法如下:
下图表示的是论文整个模型的工作过程,提取出targets之后,通过attention加权送入神经网络输出分类结果。
论文想要同时提取出多个target,为了避免多个targets之间存在word上的overlap,作者采用了一种启发式编码的算法提取multi-targets。首先提取分数前K大的start和end位置,之后尝试其所有合适的组合,分数总和大于一个阈值的就计算这个备选target的潜在分数ul(减去target长度因为target一般都是由少量word组成的),并纳入备胎集合。每次从备胎中选出潜在分数最大的target作为提取出的target,之后删去备胎集合中有word overlap的target。