nubbi模型的启发

最新推荐文章于 2022-11-07 15:03:24 发布

Jetqvvf_what

最新推荐文章于 2022-11-07 15:03:24 发布

阅读量456

点赞数

本文链接：https://blog.csdn.net/Jetqvvf_what/article/details/51968470

版权

document-network，描述主题间关系，rtm、nubbi、

社交网络是用来描述实体之间，即人与人之间关系的结构，而关系一般通过文字的形式含蓄的表达。比如一篇涉及总统Regen和演员Wyman的文章，会出现如：政治、娱乐、结婚等话题的“实词”。我们认为这些实词不是用来描述人的，就是用来描述关系的，因此划掉了实体词袋和functional words，剩下的就是描述关系的词。因此实体主题和关系主题应用不同的分布，可总结出：（家庭关系词）（职业关系）（政治关系）等的关系主题，以及哪些个体之间存在上述关系。应用该模型可以：

1、构建多项式分布的实体词袋集，识别某些人的某些特征，即他们的实体主题特征；

2、构建多项式分布的关系词袋集，识别关系的类型，即家庭？从属？等；

3、构建实体和关系共现的多项式分布，即这些人有这些关系。

特别的，模型定义了一个多项式分布、取值（1,2,3）的selector变量，当取不同值时，进行实体1、实体2、关系3的参数估计，从而，一篇文章中的词一定是number_of _entities+pair个词袋。实体词的生成仅受theta约束，关系（pair）词的生成受两个实体的theta或自己的psi参数约束（关系词就可能是与实体词相同的词），

手动进行上述关系的刻画不够实际，从而导致很多实体没有建立关系，或仅在一个小的数据集上建立固有的、预先指定的关系。

在evaluation部分，作者应用unigram、lda、author-topic(一本书有很多作者，先抽一个作者，再根据作者抽一个主题，再进行主题词的抽取。相当于在主题层上加了个作者层)、nubbi四个模型在数据集：bible、biological（gene、disease等在文献的摘要中）、wiki上进行了词的主题预测和实体的主题预测。在词的主题预测中，nubbi在bible、wiki上的效果好，在biological上效果差，作者给出的解释是一篇wiki文本中有更多的词，在k值相同的情况下利用有标注的主题划分效果显然会更好；而biological下

算法输入有标记实体的文本，如果两个实体共现多，则为二者建立关系，

同样的，食品安全报道中涉及的实体通常包括：食品、违禁内容、人（健康），通过描述三者之间的关系，表达一个事件。有助于结构化的表达，有助于更加深入的挖掘。

Reference：

Connections between the Lines:Augmenting Social Networks with Text

PS:

感觉这帮人的研究重点在于如何基于不同文本的特异性构建语义网，而不是如何利用语义网，