Cross-lingual event-centered news clustering based on elements semantic correlations of news

基于不同新闻元素语义相关性的跨语言事件中心新闻聚类

摘要:
跨语言的以事件为中心的新闻聚类旨在将以不同语言编写的新闻文档聚类为描述同一事件的文档组。为了解决双语文档之间相似度计算的问题,提出了一种基于新闻元素语义相关度的新方法。首先,利用新闻中的双语实体词汇和词语共现来获取不同语言新闻元素的语义相关性。然后,我们在此基础上使用GVSM模型计算不同语言新闻之间的相似度。最后,使用光谱聚类对新闻报道进行分类。实验结果表明我们的方法在F值上取得了可喜的结果。
介绍:
随着经济全球化和企业国际化的发展,各国之间的联系越来越紧密。越来越多的事件和话题引起了人们的共同关注。跨语言的以事件为中心的新闻聚类是将以不同语言编写的新闻分组为连贯的聚类,同一聚类的每个新闻(即每个新闻故事)都涵盖同一事件。因此,它可以帮助人们掌握当前的国际和地区热点事件,并获得同一国家不同国家的看法。
跨语言事件中心新闻聚类可以被视为跨语言文档聚类任务的特例。主要的挑战是跨越语言障碍并将不同语言的文档映射到相同的特征空间中。当前大多数技术都使用双语资源,例如双语词典,多语言知识库,并行语料库或类似语料库,以构造统一的跨语言特征空间。然后根据得到的特征空间,计算出双语文档之间的语义相似度。
但是,这些方法主要关注不同语言文档之间的语义相似性。对事件信息的考虑较少。因此,很难区分双语新闻文档是否报告同一事件。另外,由于这种双语资源中的单词和表达方式与双语新闻不同,因此在这种方法中完整的双语资源至关重要。但是构建这种资源太困难了。本文重点研究了中越跨语言事件新闻话题的检测,提出了一种基于不同新闻元素之间语义相关性的跨语言文本的聚类方法。新闻文档中的实体,动词,名词和新闻元素被视为可以表征新闻的元素。使用双语实体词汇和新闻文档的上下文,我们可以计算当前新闻集中新闻元素的语义相关性。在此基础上,我们可以获得新闻文档之间的相似性。实验表明,通过新闻元素的语义关联,可以使用相对较少的双语资源获得新闻主题的准确结果。
相关工作:
1.单文档聚类:
许多聚类算法已应用于文档聚类。这些算法通常可以分为分层和分区。分层算法可以是凝聚算法或分裂算法。分区算法用于文档聚类,包括但不限于k均值算法,频谱聚类和非负矩阵分解。分层算法集群构造嵌套集群的层次结构,而分区集群将数据点划分为不重叠的集群。一些聚类方法处理文档向量,其他聚类方法处理文档的相似度矩阵。在测量文档之间的接近度时,某些聚类方法使用余弦相似度,而另一些使用欧几里得距离。这些方法在实际应用中均取得了良好的效果。但是,我们上面提到的方法是为单语言文档聚类设计的,在跨语言场景中将不起作用,因为不同语言的文档被映射到了不同的语义空间
2.跨语言文档聚类:
在计算不同语言文档之间的相似度时,直接解决方案使用机器翻译工具将不同语言文档翻译成相同的语言,然后进行计算即可。但是利用机器翻译的方法使得效果直接下降了50%相比于单语文档的聚类。这些不良结果主要归因于机器翻译工具的准确性较差。
大多数后续研究都建立了跨语言的特征空间,以通过双语资源来跨越语言障碍。一些方法使用字典来翻译特征或关键字,并在此基础上构建跨语言特征术语空间。其他方法基于多语言本体,例如WordNet,Wikipedia或BabelNet。这些方法在概念空间中映射文档。但是,很难构建人类定义的词典和多语言本体。因此,这些方法适用的语言范围非常有限。
近年来,随着Internet上不同语言文档的迅速增长,许多研究人员通过挖掘大型双语语料库来建立跨语言特征空间
论文[19]减少了文档单词的维数,以构建一种多语言语义空间,可以将两种语言的单词和文档映射到该语言空间上。论文[1、7、13、15]使用概率主题模型从平行语料库或可比语料库挖掘跨语言主题,并将这些主题视为双语特征。论文[21]使用传播算法合并可比较语料库中的多语言空间,并使用频谱方法对文档进行聚类。论文[18]使用平行语料库对不同的语言术语进行聚类以获取单词聚类,然后将这些单词聚类视为跨语言的特征空间。
但是,当前大多数方法都在测量文档之间的语义相似性。很难区分不同的新闻文档是否报告同一事件。例如,新闻报道地震的含义大致相同,但由于发生的时间和地点不同,它们可能涵盖不同的事件。另一方面,新闻文档中新闻文档的时间线性的词语甚至可能不包含在双语资源中。此外,新闻的隐藏主题可能与双语资源中的文档有所不同。因此,通过双语资源建立的特征空间无法准确表达新闻文件。
跨语言文档相似度的计算:
在这里插入图片描述
我们要计算文档库中任意两篇文档之间的相似度,中文与中文,中文与越南语,越南语与越南语。在进行文档相似度计算之前,必须对新闻文档进行分词,词性标记和命名实体识别。对于中文文档,我们使用NLPIR1工具并将预选的中文实体添加到NLPIR的用户词典中。对于越南语文件的分割和词性标记的一部分,我们使用JVnTextPro工具。对于越南语命名实体识别,我们所知没有可用的工具,这也不是本文的重点。本文仅使用预选的越南语实体来匹配单词已被分割的越南新闻文档中的术语
由于新闻文档中的实体,动词和名词比形容词,副词等其他单词能更好地表示新闻事件。因此,本文以实体,动词和名词为元素来表征新闻文档。动词可以表达新闻事件的类型。实体和名词可以看作是新闻事件的约束。然后,我们将集合D中的所有新闻映射到由集合T事件元素构成的特征空间中。因此D可以表示为文档项矩阵X = [xij] m×n。xij表示文档di中项tj的权重。本文的权重是单词频率。xi表示文档di。因为几乎不可能在中文文档中找到越南语,而且越南文档也很少包含中文单词。
两个文档的相似度计算公式为:
在这里插入图片描述
相似度矩阵:
在这里插入图片描述
将新闻分为三部分后:标题,首段或者尾段的一句,其他内容:
公式变为:
在这里插入图片描述
相应的相似度矩阵变为:
在这里插入图片描述
在计算文档之间的相似度时,传统的VSM(矢量空间模型)基于矢量的内积
这意味着两个新闻必须包含相同的事件元素,否则相似度将为0。这显然是不现实的。
即使两个新闻涵盖同一事件,这些新闻中的单词也往往会有所不同,事件本身也会随着时间而变化。GVSM基于元素语义相关性计算文档之间的相似性。两个新闻不必包含相同的新闻元素。如果它们包含的元素都相关,我们可以说它们是相似的。因此,GSVM不仅可以计算跨语言文档之间的相似度,而且可以使结果更准确。
跨语言元素语义相关权重计算:
为了计算新闻文档中不同语言元素的语义相关性,我们使用汉语-越南语双语实体数据库作为跨语言的桥梁,然后根据它们在上下文中的共同出现来计算新闻元素的语义相关性。与之相比,实体在新闻文档中的含混性较小,并且出现频率相对较高,新闻元素通常在实体附近。使用双语实体来跨越语言障碍可以取得更好的结果。在本文中,我们使用了中越双语实体数据库,其中包含20142条记录。数据库的每个记录对应于一个实体的不同语言提及。每种语言中的实体提及次数≥1。实体类型包括商品,组织,人员等。
首先,从双语库中选择多个实体。合并这些实体和所有新闻元素以构建双向图。令E = {ei;i = 1,⋯,ns}代表我们选择的ns个实体。ei是E的第i个实体。eci代表其所有中文提及。evi代表其所有越南语提及。
然后,我们使用新闻的选定实体和元素来构建双向图。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值