今天学习的论文是
Cohan, A., & Goharian, N. (2017). Contextualizing Citations for Scientific Summarization using Word Embeddings and Domain Knowledge. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval - SIGIR ’17 (pp. 1133–1136). Springer. https://doi.org/10.1145/3077136.3080740
博主的目前研究方向是自动文本摘要,其实是想做个自动生成综述的系统
目标
论文作者提到,现在有些引用让人搞不明白,有可能是引用写的太简短,根本无法理解其应有的意义。更严重的是一种情况是引用者都没有搞明白被引用论文就引用了,或者表述上曲解了原文的意思。这些情况都非常致命,所以作者这套系统不论是对于:
- 写论文的人(看看是否有更合适的表述)
- 读论文的人(更好地了解背景知识)都很有意义
而对博主来说,这个技术可以辅助综述内容的生成和优化。
解决的问题
在引用部分和被引用文档之间可能出现同义词的变换,不同的作者有不同的习惯,所以同义词问题用传统的词匹配方法并不好用,所以作者在普通的方法基础上,加入了Word Embeddings和Domain Knowlegdge在计算不同词之间的相关性。
方法
普通方法
这里把引用部分看作是搜索中的查询,而被引用文章看作是被搜索的对象文本,获取引用上下文就是在被引用文章中找的合适的段落或句子和引用部分的文本匹配,统计语言模型使用了下面的理论来进行匹配结果的排序来找到最合适的:
式中: qi q i 是查询中的词,而求 p(qi|d) p ( q i | d ) 常用最大似然估计词频来求得。
如果用狄利克雷平滑的办法作者给出可以得到下面的计算条件概率的方法:
$$
p(q_i|d) = \frac{f(q_i,d) + \mu P(q_i|C)}{\sum_{w\in V}f(w,d) + \mu}
$$
式中:
- f(qi,d) f ( q i , d ) 是求词 qi q i 在文档 d d 中的词频
- 是全部词和文本的集合
- V V 是词典
- 是狄利克雷平滑参数
改进方法
上面的方法,遇到同义词的变换就无能为力了,而且引用部分一般都很短所以其结果并不理想
Word Embedding
这里使用Word Embedding来获取词向量,从而可以计算不同的词之间的语义相似度,进而得到下面的公式:
式中:
-
fsem(qi,d)
f
s
e
m
(
q
i
,
d
)
计算词
qi
q
i
和文档
d
d
的语义相关性,其计算:对文档d中的每个词都和词q的语义相关性求和。
而这里的
s(qi,dj)
s
(
q
i
,
d
j
)
的计算如下:
式中:
-
τ
τ
是用来去除噪音的,因为在Word Embedding中几乎没有什么绝对不相关的词,所以所有的词机会都会有一个正的相关性,但是这样明显不靠谱,所以要定义一个界限,小于这个界限的相关性都看作没有关系。而这个界限是通过求得所有词的平均数等统计方法得来。
-
ϕ(x)
ϕ
(
x
)
函数是用来扩大不同词相关性取值差距的,因为作者的数据得出是一个斜率很小的曲线,但是这样图像并不适合我们用来对文本进行区分,所以定义了一个函数来使曲线斜率增大,各个词之间的差距增大:
Domain Knowledge
使用特定领域的知识库,是因为专家级的知识库可能会包含很多Word Embedding 中不包含的信息,所以这里利用知识库有两种方式
1. 改造 利用领域知识来修改词向量,让知识相似的两个词汇更加接近
2. 嵌入语言模型 也就是修改之前的公式,利用新的函数,这个方法也是下面要说的
直接修改前面的检索模型:
式中:
-
λ
λ
`用来调整领域知识重要性的参数
-
p1
p
1
和前面p的计算公式相同
-
p2
p
2
把前面的p的计算中的函数
fsem
f
s
e
m
使用
font
f
o
n
t
来替换,其定义如下:
总结
这里我把实验和评估部分省略了,感兴趣的朋友可以自行去下载原文精读,这里我只是介绍了作者使用的方法,方便我们在其他科研工作中的灵活运用。
这篇文章结合了实际的知识数据来优化系统的计算,其很多方面性能都比纯统计和NLP的系统要高。