[读论文]使用Word Embeddings和Domain Knowledge来获取科技文献引用的上下文

最新推荐文章于 2021-05-18 19:12:23 发布

改名大佬

最新推荐文章于 2021-05-18 19:12:23 发布

阅读量1.1k

点赞数

分类专栏：文本摘要文章标签：自动文摘

本文链接：https://blog.csdn.net/cx943024256/article/details/79617986

版权

文本摘要专栏收录该内容

10 篇文章 1 订阅

订阅专栏

目标
解决的问题
方法
- 普通方法
- 改进方法
  - Word Embedding
  - Domain Knowledge
总结

今天学习的论文是

Cohan, A., & Goharian, N. (2017). Contextualizing Citations for Scientific Summarization using Word Embeddings and Domain Knowledge. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval - SIGIR ’17 (pp. 1133–1136). Springer. https://doi.org/10.1145/3077136.3080740

博主的目前研究方向是自动文本摘要，其实是想做个自动生成综述的系统

目标

论文作者提到，现在有些引用让人搞不明白，有可能是引用写的太简短，根本无法理解其应有的意义。更严重的是一种情况是引用者都没有搞明白被引用论文就引用了，或者表述上曲解了原文的意思。这些情况都非常致命，所以作者这套系统不论是对于：

写论文的人（看看是否有更合适的表述）
读论文的人（更好地了解背景知识）都很有意义

而对博主来说，这个技术可以辅助综述内容的生成和优化。

解决的问题

在引用部分和被引用文档之间可能出现同义词的变换，不同的作者有不同的习惯，所以同义词问题用传统的词匹配方法并不好用，所以作者在普通的方法基础上，加入了Word Embeddings和Domain Knowlegdge在计算不同词之间的相关性。

方法

普通方法

这里把引用部分看作是搜索中的查询，而被引用文章看作是被搜索的对象文本，获取引用上下文就是在被引用文章中找的合适的段落或句子和引用部分的文本匹配，统计语言模型使用了下面的理论来进行匹配结果的排序来找到最合适的：

p (d | p) \propto p (p | d) = \prod q i \in q p (q i | d)

$p(d|p) \propto p(p|d) = \prod_{q_i\in q}p(q_i|d)$

式中: $q_i$ 是查询中的词，而求 $p(q_i|d)$ 常用最大似然估计词频来求得。

如果用狄利克雷平滑的办法作者给出可以得到下面的计算条件概率的方法：

$$
p(q_i|d) = \frac{f(q_i,d) + \mu P(q_i|C)}{\sum_{w\in V}f(w,d) + \mu}

式中：

$f(q_i,d)$ 是求词 $q_i$ 在文档 $d$ 中的词频
$C$ 是全部词和文本的集合
$V$ 是词典
$\mu$ 是狄利克雷平滑参数

改进方法

上面的方法，遇到同义词的变换就无能为力了，而且引用部分一般都很短所以其结果并不理想

Word Embedding

这里使用Word Embedding来获取词向量，从而可以计算不同的词之间的语义相似度，进而得到下面的公式：

p (q i | d) = f s e m ( q i , d ) + μ P ( q i | C ) \sum w \in V f s e m ( w , d ) + μ

$p(q_i|d) = \frac{f_{sem}(q_i,d) + \mu P(q_i|C)}{\sum_{w\in V}f_{sem}(w,d) + \mu}$

式中：
- $f_{sem}(q_i,d)$ 计算词 $q_i$ 和文档 $d$ 的语义相关性，其计算： $f_{sem}(q_i,d)=\sum_{d_j\in}s(q_i,d_j)$ 对文档d中的每个词都和词q的语义相关性求和。

而这里的 $s(q_i,d_j)$ 的计算如下：

s (q i, d j) = {ϕ (e (q i) . e (d j)); 0 i f e (q i) . e (d j) > τ 其 他

$s(q_i,d_j) = \begin{cases}\phi(e(q_i).e(d_j));&if\quad e(q_i).e(d_j) > \tau \\0&\text{其他} \end{cases}$

式中:
- $\tau$ 是用来去除噪音的，因为在Word Embedding中几乎没有什么绝对不相关的词，所以所有的词机会都会有一个正的相关性，但是这样明显不靠谱，所以要定义一个界限，小于这个界限的相关性都看作没有关系。而这个界限是通过求得所有词的平均数等统计方法得来。
- $\phi(x)$ 函数是用来扩大不同词相关性取值差距的，因为作者的数据得出是一个斜率很小的曲线，但是这样图像并不适合我们用来对文本进行区分，所以定义了一个函数来使曲线斜率增大，各个词之间的差距增大：