事件抽取中的“门面技术”:事件名称生成浅谈

6月10日,“网信中国”微信公众号发布消息称:微博热搜榜、热门话题榜暂停更新一周,这使得很多热榜平台都受到波及,而在吃瓜之余,我们更进一步地思考热点榜单以及热点名称生成背后的技术,并发出两连问:
热点名称是否仅仅来源于用户搜索,还是源于对用户搜索内容的进一步提炼和精简?对于现在每天发布的大量资讯,如何将资讯中的热点提取出来,并为热点生成一个形式简短、表达通顺、语义完整的名称?
实际上,“热点名称”这一最终的输出结果,对于整个事件提取来说,是个实实在在的“门面技术”,热点名称是否一目了然,是否具有明显的代表性,是最为容易被感觉到的。此外,我们在进行事件挖掘的工作中,也愈来愈发现,寻找一种语义丰富、形式剪短、表达连续、语句通顺且用户友好的事件名称表示方法需求很大,这个在事件类图谱(事理图谱)中的节点表示上需求尤为强烈。
本期围绕“事件名称生成”这一主题,从事件名称生成的必要性以及现有事件名称生成的方法进行介绍。
一、 事件名称生成概述
我们将从非结构化文本中生成出一段语义丰富、形式剪短、表达连续、语句通顺且用户友好的事件名称的过程称为“事件名称生成”。这类似于微博热搜或百度热榜中的热点。
我们打开百度搜索引擎时,可以看到其提供的热榜服务,其中的热榜名称高度语义化,阅读起来十分通顺。但我们可以发现,与热榜中的某个热点相关的资讯中,其关联的标题并不严格匹配,如下图中的“北京累计采样229.7万人”下对应的资讯大多都是包含该热点名词的资讯。
在这里插入图片描述
图1-百度热榜中的事件与关联资讯
从实现上看,大概存在两种方式:
一种是人工整理的形式,即在资讯出现后,人为预先地将热点编辑好,随后利用文本聚类的方法将相关的资讯关联到这个热点名称上,以做热度的计量,这个属于人工的方法;
另一种是从已完成聚类的资讯文本中,利用机器提取的方式,将众多资讯标题进行聚合和提取,并生成有效的热点名称。例如,针对聚类好的文本集合,可以从中抽离出各个资讯对应的标题,并从标题集合中通过公共子串、高频连续子串(n-gram)或非连续子串评分的方式获取相应的事件名称。
以下展示了以“我国开采出五色透明原油”和“钟南山院士空降北京”为例,通过使用高频非连续公共子串评分方法抽取得到的结果:

在这里插入图片描述
图2-基于最大非连续公共子串的事件名称生成效果
然而,针对单个文本而言,缺少统计、计量信息和对比信息,就需要返回到篇章本身来进行抽取,这种场景在如事件类图谱(事理图谱)中的事件节点名称在内的事件抽取领域需求尤为强烈。在很多现有系统中,大致有三种方式来处理:
一类是基于主题词、关键词或论元序列的名称表示,其核心思想为利用关键信息提取技术提取出某篇文档或事件的核心词汇,并按照某种排序规则进行表示。例如,利用典型的LDA主题建模得到相关主题词,利用TFIDF算法提取关键词,并选择其中的名词性实体、名词性短语、动词或动词性短语进行排序组合。这种方式较为简单、粗暴、语义不连贯,十分不利于阅读。
另一种是将文本中所涉及的论元,按照形如[人物]在[时间词]做了[动作词]的组织规则进行组合,这与框架式(framenet、ACE)的事件表示思想类似,如图3中列举的金融领域事件,事件名称可从对应的

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值