文本自动生成研究进展与趋势之数据到文本的生成

数据到文本的生成

1 国际研究现状

        数据到文本的生成技术指根据给定的数值数据生成相关文本,例如基于数值数据生成天气预报文本、体育新闻、财经报道、医疗报告等。数据到文本的生成技术具有极强的应用前景,目前该领域已经取得了很大的研究进展,业界已经研制出面向不同领域和应用的多个生成系统。针对数据到文本的生成技术的研究单位主要集中少数几个单位,例如英国阿伯丁大学、英国布莱顿大学、爱丁堡大学等,相关研究成果主要发表在 INLG、ENLG 这几个专业学术会议上。

英国阿伯丁大学的 Ehud Reiter 在三阶段流水线模型[76]的基础上提出了数据到文本的生成系统的一般框架

       其中:信号分析模块(Signal Analysis)的输入为数值数据,通过利用各种数据分析方法检测数据中的基本模式,输出离散数据模式。例如股票数据中的峰值,较长期的增长趋势等。该模块与具体应用领域和数据类型相关,针对不同的应用领域与数据类型所输出的数据模式是不同的。

       数据阐释模块(Data Interpretation)的输入为基本模式与事件,通过对基本模式和输入事件进行分析,推断出更加复杂和抽象的消息,同时推断出它们之间的关系,最后输出高层消息以及消息之间的关系。例如针对股票数据,如果跌幅超过某个值则可以创建一条消息。还需要检测消息之间的关系,例如因果关系、时序关系等。值得说明的是,数据阐释模块并不是在所有文本生成系统中都需要,例如,在天气预报文本生成系统中,基本的模式足以满足要求,因此并不需要采用数据阐释模块。

       文档规划模块(Document Planning)的输入为消息及关系,分析决定哪些消息和关系需要在文本中提及,同时要确定文本的结构,最后输出需要提及的消息以及文档结构。从更高的层次来说,信号分析与数据阐释模块会产生大量的消息、模式和事件,但文本通常长度受限,只能描述其中的一部分,因此文档规划模块必须确定文本中需要说明的消息。一般可根据专家知识、消息的重要性、新颖性等来进行选择和确定。当然,该模块与领域也很相关,不同领域中对消息的选择所考虑的因素不一样,文档的结构也会不一样。

       微规划与实现(Microplanning and Realisation)模块的输入为选中的消息及结构,通过自然语言生成技术输出最终的文本。该模块主要涉及到对句子进行规划以及句子实现,要求最终实现的句子具有正确的语法、形态和拼写,同时采用准确的指代表达。所采用的技术在学术界有相当多的研究,具体可参考本文第 3 节“意义到文本的生成”。

      目前,业界已经研制了面向多个领域的数据到文本的生成系统,这些系统的框架与上述一般框架并无大的差别,部分系统将上述框架中的两个模块合并为一个模块,或者省去了其中一个模块。

      数据到文本的生成技术在天气预报领域应用最为成功,业界研制了多个系统对天气预报数据进行总结,生成天气预报文本。例如,FoG 系统[78]能够从用户操作过的数据中生成双语天气预报文本;SumTime 系统[79]能够生成海洋天气预报文本,实验评测表明用户有时候更倾向于阅读 SumTime 所生成的天气预报,而非专家撰写的天气预报[80]。此外,英国阿伯丁大学的 Anja Belz 提出概率生成模型进行天气语言文本的生成[81]。Anja Belz 和 Eric Kow 进一步基于天气预报数据分析对比了多种数据到文本的生成系统,结果表明采用自动化程度较高的方法并不会降低文本生成质量,同时文本质量的自动评价方法会低估基于手工规则构建的系统,而高估自动化系统[82]。

     业界面向其他领域也研制多个文本生成系统,例如针对空气质量的文本生成系统[83],针对财经数据的文本生成系统[84],面向医疗诊断数据的文本生成系统 TOPAZ[85]、Suregen [86]、BT-45 [87]等。其中 BT-45 能够为新生儿重症监护病房(NICU)的监控数据生成文本摘要,帮助医生进行决策。下面两张图分别给出了 BT-45 系统的输入样例与生成得到的文本。NICU 数据样例,从上到下分别表示 HR, TcPO2, TcPCO2, SaO2, T1 & T2, and Mean BP [Portet et al., 2009]

由于数据到文本的生成技术的巨大应用价值,工业界成立了多家从事文本生成的公司,能够为多个行业基于行业数据生成行业报告或新闻报道,从而节省大量的人力。比较知名的公司有 ARRIA[12]、AI[13]、NarrativeScience[14]等。其中 ARRIA 是一家总部设在欧洲的公司,其前称为 Data2Text,由来自阿伯丁大学的两名教授 Ehud Reiter 与 Yaji Sripada 创办,后来自然语言生成领域的另一位科学家 Robert Dale 也加入了该公司,该公司的核心技术为 ARRIA NLG 引擎。AI (Automated Insights) 则是一家美国人工智能公司,由一名思科的前工程师 Robbie Allen 所创办,最早基于体育数据生成文本摘要,目前能为包括金融、个人健身、商业智能、网站分析等在内的多个领域内的数据生成文本报告,其核心技术为 WordSmith NLG 引擎。目前,AI 公司已经为美联社等多家单位生成数亿篇新闻报道,造成了巨大的影响力。NarrativeScience 则是根据美国西北大学的一个研究项目 StatsMonkey 发展而来,其核心技术为 Quill NLG 引擎。Forbes 是 NarrativeScience 的一个典型客户,在网站上有个 NarrativeScience 专页[15],全部文章都是由 NarrativeScience 自动生成。

2 国内研究现状

         国内学术界对数据到文本的生成鲜有研究,也很少见到相关学术成果发表在重要学术会议和期刊上。国内工业界则有部分单位研制了基于模板的文本生成系统。例如新华社已开发了从财报数据生成企业财报年报的系统,该系统基于人工模板,将需要的数据填入写好的模板中,从而生成财报年报。由于采用的模板比较固定,所以为不同企业生成的财报年报都比较类似,而不够生动。

3 发展趋势与展望

       从数据到中文文本的生成技术很有研究意义,同时实用性很强。如果能实现从数据到中文新闻的生成,那么将极大缓解编辑和记者的负担,实现媒体、出版行业的变革。而实现这样的系统,必须依靠科研院所和新闻出版机构的合作,新闻出版机构能够提供大量的数据和专家知识,而科研院所则擅长自然语言理解与生成的理论与方法。

     此外,要研制一套通用的面向不同领域的数据到文本的生成系统相当复杂和困难,因此一个更好的做法是先选择一两个领域(如财经、体育)进行系统研制,待系统成熟后再考虑将系统迁移到其他领域。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值