【CIPS 2016】(8-10章)信息抽取、情感分析&自动文摘 (研究进展、现状&趋势)

CIPS 2016 笔记整理

《中文信息处理发展报告(2016)》是中国中文信息学会召集专家对本领域学科方 向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府、企业、媒体等对中文 信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向,向高校、科研院所和 高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。

本专栏主要是针对《中文信息处理发展报告(2016)》做的笔记知识整理,方便日后查看。

注意:本笔记不涉及任何代码以及原理分析研究探讨,主要是对NLP的研究进展、现状以及发展趋势有一个清晰的了解,方便以后更加深入的研究。

ps:我已将思维导图以及Markdown版本、pdf版本上传到我的GitHub中,有需要的可以自行查看:

https://github.com/changliang5811/CIPS-2016.git

传送门:

CIPS 2016(1-3章)——词法、句法、语义、语篇分析
CIPS 2016(4-5章)——语言认知模型、语言表示以及深度学习
CIPS 2016(6-7章)——知识图谱、文本分类与聚类



前言

信息抽取(Information Extraction)是指从非结构化/半结构化文本(如网页、新闻、论文文献、微博等)中提取指定类型的信息(如实体、属性、关系、事件、商品记录等),并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息的一项综合技术。例如,从相关新闻报道中抽取出恐怖事件信息:时间、地点、袭击者、受害人、袭击目标、后果等;从体育新闻中抽取体育赛事信息:主队、客队、赛场、比分等;从论文和医疗文献中抽取疾病信息:病因、病原、症状、药物等。被抽取出来的信息通常以结构化的形式描述,可以为计算机直接处理,从而实现对海量非结构化数据的分析、组织、管理、计算、查询和推理,并进一步为更高层面的应用和任务(如自然语言理解、知识库构建、智能问答系统、舆情分析系统)提供支撑。

狭义的情感分析(sentiment analysis)是指利用计算机实现对文本数据的观点、情感、态度、情绪等的分析挖掘。广义的情感分析则包括对图像视频、语音、文本等多模态信息的情感计算。简单地讲,情感分析研究的目标是建立一个有效的分析方法、模型和系统,对输入信息中某个对象分析其持有的情感信息,例如观点倾向、态度、主观观点或喜怒哀乐等情绪表达。情感分析是一个典型的交叉学科问题,因此这项工作的开展具有重要的理论与实际意义。从社会学的角度,情感已经成为影响我们行为、人类互相交流的一个重要因素,深入分析情感信息的关键因素、社会影响力、传播模式对于理解情感信息非常重要;从计算科学的角度,如何理解和分析情感信息的表达方式对于提高人机交互、自然语言理解等人工智能任务的能力具有重要意义。两者结合,对情感分析研究的推动与发展,不仅有利于推动相关学科的发展进步,从更深层次上理解和处理情感信息,也能很大程度促进人工智能水平的提高。

随着互联网与社交媒体的迅猛发展和广泛普及,我们进入了一个信息爆炸的时代。网络上包括新闻、书籍、学术文献、微博、微信、博客、评论等在内的各类型文本数据剧增,给用户带来了海量信息,也带来了信息过载的问题。用户通过谷歌、必应、百度等搜索引擎或推荐系统能获得大量的相关文档,但用户通常需要花费较长时间进行阅读才能对一个事件或对象进行比较全面的了解。如何将用户从长篇累牍的文字阅读中解放出来是大数据时代面临的一个挑战,自动文摘技术则是应对该项挑战的一件利器。

Chapter 8 信息抽取

(研究进展、现状&趋势)

什么是信息抽取?

信息抽取(Information Extraction)是指从非结构化/半结构化文本(如网页、新闻、 论文文献、微博等),使用多种技术(如规则方法、统计方法、知识挖掘方法),提取指定类型的信息(如实体、属性、关系、事件、商品记录等),并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息,并将这些信息在不同的层面进行集成(知识去重、知识链接、知识系统构建等)的一项综合技术。

被抽取出来的信息通常以结构化的形式描述,可以为计算机直接处理

每一段文本内所包含的寓意可以描述为其中的一组实体以及这些实体相互之间的关联和交互,抽取文本中的实体和它们之间的语义关系也就成为了理解文本意义的基础

意义

  • 实现对海量非结构化数据的分析、组织、管理、计算、查询和推理,并进一步为更高层面的应用和任务(如自然语言理解、知识库构建、智能问答 系统、舆情分析系统)提供支撑。
  • 组织、管理和分析海量文本信息的核心技术和重要手段,是大数据时代的使 能技术,具有重要的经济和应用意义
  • 构建可支撑类人推理和自然语言理解的大规模常识知识库的有效技术之一

应用

  • 如舆情分析、舆情监控、网络搜索、智能问答系统、知识库构建、文本分析等

研究内容

命名实体识别 (Named Entity Recognition, NER)

  • 目的是识别文本中指定类别的实体,主要包括人名、地名、机构名、专有名词等的任务

  • 包含部分

    • 实体边界识别

      • 判断一个字符串是否是一个实体
    • 实体分类

      • 将识别出的实体划分到预先给定的不同类别中去
  • 主要难点

    • 表达不规律、且缺乏训练语料的开放域命名实体类别(如电影、歌曲名)

关系抽取 (Relation Extraction)

  • 检测和识别文本中实体之间的语义关系,将表示同一关系的提及(mention)链接起来的任务

  • 输出:通常是一个三元组(实体 1,关系类别,实体 2),表示实体 1 和实体 2 之间存在特定类别的语义关系

    • 例子:句子“北京 是中国的首都、政治中心和文化中心”中表述的关系可以表示为(中国,首都,北京),(中 国,政治中心,北京)和(中国,文化中心,北京)。
    • 语义关系类别可以预先给定(如 ACE 评测中的七大类关系),也可以按需自动发现(开放域信息抽取)
  • 核心模块

    • 关系检测

      • 判断两个实体之间是否存在语义关系
    • 关系分类

      • 将存在语义关系的实体对划分到预先指定的类别中
    • 关系发现(某些场景下)

      • 主要目的是发现实体和实体之间存在的语义关系类别

事件抽取

  • 从非结构化文本中抽取事件信息,并将其以结构化形式呈现出来的任务

    • 例子:从“毛泽东 1893 年出生于湖南湘潭”这句话中抽取事件{类 人物:毛泽东,时间:1893 年,出生地:湖南湘潭}
  • 子任务

    • 事件类型识别

      • 判断一句话是否表达了特定类型的事件

      • 事件类型决定了事件表示的模板,不同类型的事件具有不同的模板

        • 例如出生事件的模板是{人物, 时间,出生地},而恐怖袭击事件的模板是{地点,时间,袭击者,受害者,受伤人数,…}。
    • 事件元素填充

      • 事件元素指组成事件的关键元素
      • 根据所属的事件模板,抽取相应的元素,并为其标上正确元素标签的任务

信息集成(Information Integration)

  • 原因

    • 实体、关系和事件分别表示了单篇文本中不同粒度的信息
    • 在很多应用中,需要将来自不同数据源、不同文本的信息综合起来进行决策
  • 技术

    • 共指消解技术

      • 检测同一实体/关系/事件的不同提及,并将其链接在一起的任务
      • 例如,识别“乔布斯是苹果的创始人之一,他经历了苹果公司几十年的起落与兴衰”这句话中的“乔布斯”和 “他”指的是同一实体
    • 实体链接技术

      • 目的是确定实体名所指向的真实世界实体
      • 例如识别“苹果”和“乔布斯”分别指向真实世界中的苹果公司和其 CEO 史蒂夫·乔布斯

关键科学问题

  • 自然语言表达的多样性、歧义性和结构性
  • 目标知识的复杂性、开放性和巨大规模
  • 多源异构信息的融合与验证

信息抽取方法

根据模型的不同 (重点)

  • 基于规则的抽取方法

    • 一个基于规则的抽取系统通常包括一个规则集合和规则执行引擎(负责规则的应用、冲突消解、优先级排 序和结果归并)

    • 规则系统在抽取可控且表达规范的信息时非常有效

    • 表现形式:正则表达式、词汇-语法规则、面向 HTML 页面抽取的 Dom Tree 规则等等

    • 抽取规则可以通过人工编写得到或者使用学习方法自动学习得到

    • 抽取规则的管理、冲突消解和优先级排序也是基于规则的信息抽取研究内容

      • 原因:为抽取一类特定信息,通常需要一系列相关的抽取规则,在实际情况中,通常会存在规则相互冲突或规则不一致的情况
    • 研究重点、难点

      • 重点:构建更高效的规则执行引擎、更方便的规则开发平台、更具表达能力的规则表示语言
      • 难点:如何学习更精准的抽 取规则、如何消除抽取规则的歧义、如何自动评估规则的效果(如 Bootstrapping 系统通常会遇到的语义漂移问题)
  • 基于统计模型的抽取方法

    • 通常将信息抽取任务形式化为从文本输入到特定目标结构的预测,使用统计模型来建模输入与输出之间的关联,并使用机器学习方法来学习模型的参数。

    • 统计方法

      • 最大熵分类模型、基于树核的 SVM 分类模型、隐马尔可夫模型、条件随机场模型(CRF)等等
      • CRF是实体识别的代表性统计模型,它将实体识别问题转化为序列标注问题;
      • 基于树核的关系抽取系统则将关系抽取任务形式化为结构化表示的分类问题。
    • 与深度学习结合

      • 相比传统的统计信息抽取模型,深度学习模型无需人工定义的特征模板,能够自动的学习出信息抽取的有效特征;同时神经网络的深度结 构使得深度学习模型具有更好的表达能力
      • 在标注语料充分的情况下,深度学习模型往往能够取得比传统方法更好的性能
  • 基于文本挖掘的抽取方法

    • Web 中往往还存在大量的半结构的高质量数据源,这些结构往往蕴含有丰富的语义信息
    • 半结构 Web 数据源上的语义知识获取(knowledge harvesting),如大规模知识共享社区(如百度百科、互动百科、维基百科)上的语义知识抽取,往往采用文本挖掘的方法
    • 核心:构建从特定结构(如列表、Infobox)到目标语义知识(实体、关系、事件)的映射规则
    • 由于映射规则本身可能带有不确定性和歧义性,同时目标结构可能会有一定的噪音,文本挖掘方法往往基于特定算法来对语义知识进行评分和过滤
    • 只从容易获取且具有明确结构的语料中抽取知识,抽取出来的知识质量往往较高。但是仅仅依靠结构化数据挖掘无法覆盖人类的大部分语义知识,现有结构化数据源只能覆盖有限类别的语义知识,相比人类的知识仍远远不够
    • 展望:如何结合文本挖掘方法(面向半结构化数据,抽取出的知识质量高但覆盖度低)和文本抽取方法 (面向非结构化数据,抽取出的知识相比文本挖掘方法质量低但覆盖度高)的优点,融合来自不同数据源的知识,并将其与现有大规模知识库集成,是文本挖掘方法的研究方向之一。

根据对监督知识的依赖,信息抽取方法可以划分为无监督方法、弱监督方法、知识监督方法和有监督方法

根据抽取对象的不同,可以划分为实体识别方法、关系抽取方法、事件抽取方法

局限性

  • 在构建成本上,现有高 质量抽取系统往往依赖于标注语料,构建成本较高

  • 在构建方式上,现有信息抽取系统依赖于许多预处理模块(如分词、词性标注、句法分析等),缺乏端到端的自动构建方式(随着深度神经网络的使用,已经有所改善),同时也容易受预处理模块性能的影响

  • 在自适应性上,现有抽取系统的自适应性不强,往往在更换语料、更换领域、更换知识类别时会有一个大幅度的性能下降

  • 在系统的性能上,现有信息抽取技术在抽取复杂结构(如事件、Taxonomy) 时性能仍然离实用有一定距离

发展方向

面向开放域的可扩展信息抽取技术

  • 现状:现有监督抽取模型无法处理海量异质数据源上开放性和复杂知识的抽取
  • 1.数据规模上的可扩展性;2.数据源类型上的可扩展性;3. 领域的可扩展性;4. 低构建成本(不能完全依赖有监督学习,要基于无监督技术、弱监督技术、知识监督技术等低成本构建技术)

自学习、自适应和自演化的信息抽取系统

  • 研究面向开放域的数据源,研究自学习的信息抽取技术,在极少人工干预下构建高性能的终生学习信息抽取系统(Never End Learning System)
  • 面向演化数据源,研究增量式的信息抽取技术,实现信息抽取系统的性能自检测和自动领域适应
  • 研究信息抽取多任务管理技术,面向不同数据源、不同任务,自动的重用之前的信息抽取模块,并利用自学习技术构建高性能的抽取系统
  • 研究融合人、信息、和计算机的信息抽取技术平台,充分利用人、计算机各自的优势,大幅提高抽取结果的可用性

面向多源异构数据的信息融合技术

  • 原因:1)目前大部分信息抽取系统抽取结果都是碎片化、分散和不一致的,很难构建一个完整的、可解释的复杂知识系统模型;2)Web 文本规模巨大,质量参差不齐,导致信息抽取的结果存在冗余、冲突和错误,并存在一定程度的不确定性
  • 目的:去除信息抽取结果的冗余、冲突和错误,并减少信息抽取结果的不确定性;通过将抽取出来的知识碎片组装成一个完整的全局系统,信息融合技术可以帮助我们构建一个完整的、解释性的知识系统,进而支撑更高层的智能应用,如医学药物分析、经济系统分析等等
  • 研究包括跨文档、跨语言和跨媒体三个层次上的融合技术,包括 信息置信度衡量、冗余信息去除、解决信息之间的冲突、减少抽取信息的不确定性,并构建 自动的缺失信息检测和补全技术
  • 研究信息融合的全局机制,探索基于信息融合的复杂知识模型构建,如基于本体关系的知识图谱,基于因果关系的复杂因果网络,等等

Chapter 9 情感分析

(研究进展、现状&趋势)

什么是情感分析?

  • 狭义:指利用计算机实现对文本数据的观点、情感、态度、情绪等的分析挖掘

  • 广义:包括对图像视频、语音、文本等多模态信息的 情感计算

  • 目标:建立一个有效的分析方法、模型和系统,对输入信息中某个对象分析其持有的情感信息,例如观点倾向、态度、主观观点或喜怒哀乐等情 绪表达。

(文本)情感分析分类

情感资源构建

  • 情感资源通常体现为一些带有情感倾向标注的词或短语,这些资源成为各种情感分析任务的重要资源支撑

  • 类别体系的研究

    • 从情感倾向、情感表达强弱等方面对情感表达进行区分的类别体系,最常见的包括正、负倾向、主客观,以及细粒度的表达情感强度的强弱区分
  • 不同粒度的情感资源研究

    • 从资源词条的文本粒度来说,有词汇级别、短语级别和属性级别,而往往更细的粒度需要的领域知识更多,难度更大
  • 构建方法的研究

    • 手工构建、基于词典扩展和基于语料库构建的方法

情感信息的质量分析

  • 对信息内容本身的判别,包括评论内容可信度分析(Credibility)、垃圾评论识别(Spam) 评论内容的可用性(helpfulness)分析等
  • 对信息内容提供者的判别,甄别虚假用户

情感分类

(基础任务)

  • 对给定的信息内容,依据情感类别体系进行分类(文本分类任务)或评级(序回归任务)

    序回归:样本的标签是等级,学习的目标是给定样本,预测等级,使得预测的等级跟真实等级尽可能接近

  • 从输入文本的粒度来看,可以分为篇章级、句子级、短语级、对象和属性级

  • 从所采用的方法来看,可以分成无监督学习、半监督学习、有监督学习方法

  • 从任务的定义上,可以分成主客观分类,情感倾向极性分类,以及情感倾向强度评级(例如 1~5 分,或 1~10 分)。

情感信息抽取

  • 情感信息抽取是情感分析中的细粒度任务,其核心的目标是抽取观点对象、评价表达、 对象和评价之间的搭配等
  • 抽取观点对象:通常有关于观点持有人、观点所针对的目标、对象的细粒度属性等不同层次的情感识别与抽取
  • 评价表达:通常是从输入内容中抽取情感词、情感表达式等内容,包括隐性表达(即通过事实类描述或其它隐晦描述)和显性表达(即具有明显的观点描述)
  • 对象和评价之间的搭配:不仅要识别观点对象或属性及针对其的情感评价

多模态情感分析

  • 传统的情感分析任务大多是在文本信息上进行的。多模态的情感分析是指从图像、视频、 语音、文字等多模态的数据中分析情感、情绪的表达。
  • 单模态数据的情感分析,例如针对语音数据、面部视觉信息进行情感情绪识别
  • 多模态融合的情感分析 例如从语音+视觉的数据中分析情绪表达,从图像+文字的数据中分析情感表达,从语音+文字的数据中分析观点表达等。

情感分析方法

规则为主的情感分析方法(早期)

  • 利用一些已知的情感资源,并结合一些句法规则(如同、反义词,否定、转折、递进等),并结合一些统计量,从而进行情感资源构建或者情感分类操作
  • 缺点:需要较多的资源(词汇资源、各种规则),并且规则总结和挖掘,不可避免的需要介入手工检查

传统机器学习的情感分析方法

  • 特征:词性、情感词汇、句法依赖、 情感变换词(not,no,never,neither)等
  • 近年来主题模型也成为情感抽取的一类重要方法。在这一类方法中观点对象和情感词都被当作是主题信息。一个主题中往往包含了数个概率较高的词,因此这类方法在抽取的同时也完成了词的聚类(基于 pLSA 的特征-情感混合模型)

基于深度学习的情感分析方法

(目前几乎霸榜NLP tasks)

  • 词向量的表示

    • 在词向量的表示学习基础上,加入情感相关的目标函数,进行联合训练,以期望得到与情感信息相关的词向量表示
    • 根据词性选择合成函数,以及学习一个词性的嵌入向量,根据子节点向量、词性向量合成父节点的向量(通常形容词扮演更重要的角色)
  • 采用自动编码器进行文本的表示学习

    1. 简单的编码器, 将文本的词袋表示(词表上的稀疏向量表示)转成隐藏层上的表示,学习的目标是最小化原始输入和重构表示之间(隐藏层表示经过非线性变换得到)的误差。
      应用场景:领域自适应、跨语言的表示或跨模态的数据表示
    2. 面对情感分析任务,现有研究者已经把情感分类和领域分类的监督信息加入到优化目标函数中,使得所得到的表示具有一定的情感表达的特点。
  • 面对句子级情感分析任务

    • 种在句法成分树上进行递归编码的深度学习模型,通过在每个内节点上加入情感标注的监督信息,和重构误差一起进行优化,在句子级别的情感分类上较传统词袋模型获得了大幅提高
    • CNN、LSTM等

发展趋势

面向社交媒体开放域文本的情感分析

  • 难点:评论对象或属性更加难以抽取,表达更加隐晦,甚至不存在明显属性描述词;观点表达更加多样,许多话题不存在明显的观点评价词;理解情感表达需要更多的上下文,例如评论、转发、反讽中需要通过上下文才能对内容进行充分理解

基于上下文感知的情感分析

  • 要求在理解当前内容时候,考虑各种形式的上下文
  • 难点:1)基于上下文感知的情感资源构建方法;2)基于上下文相关的情感分类,包括篇章级、句子级、对象级、对象属性级、社交媒体的上下文。

跨领域跨语言情感分析

  • 原因:情感语义计算极大依赖于情感资源(包括情感词典与标注语料),而情感资源又通常跟领域、语言密切相关。但是社交媒体上用户生成文本涉及众多的不同领域,以及不同的语种(例如中文、英文、日文,以及少数民族语言等)
  • 亟待提出崭新的跨领域跨语言文本情感计
    算理论与方法,破除领域或语言壁垒。

基于深度学习的端到端情感分析

新的情感分析任务

  • 情感解释: 挖掘与分析观点情感的原因。比如在社交媒体上,面对热门事件或开放性话题,如何
    分析群体情感的演变模式和原因分析。
  • 反讽分析:反讽是社交媒体上一类特殊的语言现象,网民有时候会利用反讽来表达与文本字面相反的语义或情感倾向。反讽的分析和检测具有非常高的挑战性,仅从字面理解内容会得到完全相反的分析结果
  • 立场分析:目标是识别出讨论或辩论双方的所持立场

Chapter 10 自动文摘

(研究进展、现状&趋势)

自动文摘可以做什么?

目前挑战:如何将用户从长篇累牍的文字阅读中解放出来是大数据时代面临的一个挑战

自动文摘(又称自动文档摘要)是指通过自动分析给定的一篇文档或多篇文档,提炼、总结其中的要点信息,最终输出一篇长度较短、可读性良好的摘要(通常包含几句话或数百字),该摘要中的句子可直接出自原文,也可重新撰写所得。

目的:通过对原文本进行压缩、提炼,为用户提供简明扼要的文字描述。用户可以通过阅读简短的摘要而知晓原文中所表达的主要内容,从而大幅节省阅读时间。

研究的最终目标:建立有效的自动文摘方法与模型,实现高性能的自动文摘系统。

研究内容

自动文摘可看作是一个信息压缩过程,将输入的一篇或多篇文档压缩为一篇简短的摘要,涉及到对输入文档的理解、要点的筛选,以及文摘合成这三个主要步骤。

要点筛选

  • 文档中的重要信息可以通过要点来体现,如何从冗杂的文本信息中筛选出要点,是自动文摘系统能否成功的先决条件。
  • 如何表达要点信息?目前各类文摘系统中采用了不同粒度的信息单元来表示要点信息,例如词汇、短语、依存关系、句子、甚至语义图等(没有绝对的优劣之分)。
  • 如何评估信息单元的重要性?输入文档中通常包含大量的信息单元,无论是词汇、短语还是句子。从大量信息单元中发现最重要的若干个,为后续文摘合成提供输入。

文摘合成

  • 根据要点筛选的结果进行摘要的合成,产生最终的摘要。文摘合成步骤需要保证摘要具有良好的要点覆盖性与可读性,且满足摘要长度的限制。

  • 采用抽取式还是生成式方法?

    • 抽取式方法基于原文中已有的句子进行文摘合成,利用不同方法对文档结构单元(句子、段落等)进行评价,对每个结构单元赋予一定权重,然后选择最重要的结构单元组成摘要。所产生的摘要语句通顺,目前(2016年)大多数自动文摘系统所采用的方法
    • 生成式方法则利用自然语言理解技术对文本进行语法、语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。直接生成摘要语句,能够得到更加凝练的语句,但语句通顺性不能得到保障。
    • 有一些方法允许对原文语句进行一定的压缩或融合,可以看作是一种混合方法。
  • 如何评估摘要的可读性?

    • 摘要可读性是衡量摘要质量的一个重要性质,能够严重影响读者对摘要的主观感受
    • 摘要的可读性不仅依赖于每个句子的通顺性,还依赖于多个句子之间的连贯性
  • 如何同时满足摘要的多种性质要求?

    • 早期的自动文摘系统采用贪心的处理方式,分步骤逐一考虑摘要的不同性质
    • 最新的自动文摘系统则力图在统一的优化框架下同时考虑多种性质,从而获得更优的摘要结果。

自动文摘

自动文摘所采用的方法从实现上考虑可以分为抽取式摘要(extractive summarization)和生成式摘要(abstractive summarization)。(见研究内容之文摘合成部分)

技术框架

  • 内容表示 → 权重计算 → 内容选择 → 内容组织

  • 首先将原始文本表示为便于后续处理的表达方式,然后由模型对不同的句法或语义单元进行重要性计算,再根据重要性权重选取一部分单元,经过内容上的组织形成最后的摘要。

  • 内容表示与权重计算

    • 原文档中的每个句子由多个词汇或单元构成,后续处理过程中也以词汇等元素为基本单位,对所在句子给出综合评价分数。
    • 方法一:由于词汇在文档中的出现频次可以在一定程度上反映其重要性,可以使用每个句子中出现某词的概率作为该词的得分,通过将所有包含词的概率求和得到句子得分,或者利用扩展性较强的贝叶斯话题模型,对词汇本身的话题相关性概率进行建模。
    • 方法二:将每个句子表示为向量,维数为总词表大小。通常使用加权频数作为句子向量相应维上的取值,如TF-IDF。或者得到向量表示后计算两两之间的某种相似度(例如余弦相似度),随后根据计算出的相似度构建带权图,图中每个节点对应每个句子。最后以用相似度作为节点之间的边权,通过迭代求解基于图的排序算法来得到句子的重要性得分。
    • 方法三:捕捉每个句子中所描述的概念,例如句子中所包含的命名实体或动词,比如将二元词(bigram)作为概念,也有利用频繁图挖掘算法从文档集中挖掘得到深层依存子结构作为语义表示单元。
    • 方法四:利用公开数据集训练有监督打分模型。对于抽取式摘要,可以人工撰写摘要,然后有监督训练。也有利用隐马尔科夫模型(HMM)、条件随机场(CRF)、结构化支持向量(Structural SVM)等常见序列标注或一般结构预测模型进行抽取式摘要有监督训练的工作。
  • 内容选择

    • 因为长度限制,考虑如何在尽可能短的长度里容纳尽可能多的重要信息,在此基础上对原文内容进行选取。

    • 方法一:贪心选择

      • 根据句子或其他单元的重要性得分进行贪心选择。选择过程中需要考虑各单元之间的相似性,尽量避免在最终的摘要中包含重复的信息。

      • 去除冗余机制

        • 法1:最大边缘相关法:在每次选取过程中,贪心选择与查询最相关或内容最重要、同时和已选择信息重叠性最小的结果(类似于TF-IDF)
        • 法2:直接将内容选择的重要性和多样性同时考虑在同一个概率模型框架内,基于贪心选择近似优化似然函数
      • 包括最大边缘相关法在内的很多贪心选择目标函数都具有次模性

        • 在这里插入图片描述

        • 这个性质被称为回报递减效应(diminishing returns)

        • 由于每步选择的即时最优性,每次多选入一句话,信息的增加不会比上一步更多(也就是每次所增加的内容一次比一次少)

      • 贪心法易于实现、运行效率高,基于次模函数优化的内容选择在近年得到了很多扩展。

    • 方法二:全局优化

      • 同样以最大化摘要覆盖信息、最小化冗余等要素作为目标,同时可以在优化问题中考虑多种由任务和方法本身的性质所导出的约束条件

      • 最为常用的形式化框架是基于 0-1 二值变量的整数线性规划。最后求解优化问题得到的结果中如果某变量取值为 1,则表示应当将该变量对应的单元选入最后的摘要中。

        • 缺点:为 NP-难问题,此类方法的求解过程在实际应用中会表现较慢,并不适合实时性较高的应用场景
      • 其余方法:DP、最小割问题、对偶分解技术

      • 展望:更为通用的全局优化加速方案目前仍是一个开放问题。

  • 内容组织

    • 内容简化与整合

      • 基于句子抽取得到的语句在表达上不够精练,需要通过语句压缩、简化、改写等技术克服这一问题。
      • 现行主要做法基于句法规则或篇章规则
      • 关于语句简化与改写方面目前也有相对独立的研究,主要利用机器翻译模型进行语句串或句法树的转写
      • 生成式摘要:基于句法分析和对齐技术,可以从合并后的词图直接产生最后的句子,或者以约束形式将合并信息引入优化模型等方式来实现。
      • 目前也有研究者尝试通过对原文档进行语义理解,将原文档表示为深层语义形式(例如深层语义图),然后分析获得摘要的深层语义表示(例如深层语义子图),最后由摘要的深层语义表示生成摘要文本(利用自然语言生成技术从语义表达直接生成而得)
    • 内容排序

      • 对于单文档摘要任务而言,所选取内容在原文档中的表述顺序基本可以反映这些内容之间正确的组织顺序,因此通常直接保持所选取内容在原文中的顺序。
      • 对于多文档摘要任务,选取内容来自不同文档,需要考虑内容之间的衔接性与连贯性(目前还处于研究初期阶段)
  • 端到端摘要

    • 基 于 编 码器 - 解码器(encoder-decoder)架构的序列到序列学习模型(sequence-to-sequence learning)目前最为流行,因为可以避免繁琐的人工特征提取,也避开了重要性评估、内容选择等技术点的模块化,只需要足够的输入输出即可开始训练。
    • 尝试对语句层次进行编码并在此基础上引入注意机制

展望

多语言自动文摘资源建设

  • 自动文摘资源匮乏,严重影响了这些语言中自动文摘技术的发展。业界需要投入更多的人力物力来建设多语言自动文摘资源,这对自动文摘的研究将起到重大的推动作用

自动文摘评价方法的完善

基于自然语言生成的自动文摘

  • 未来几年将会有越来越多的研究者基于深度学习技术从事生成式摘要方法的研究,也有望取得重要进展。

篇章信息和语义信息的有效利用

  • 文档本身的语义表达具备很强的结构性,各语义单元之间存在紧密联系,这一点在目前提出的结构预测模型中也几乎没有考虑
  • 应尽可能保证最后抽取或生成的摘要在描述上前后一致、表达连贯

综述自动生成

跨语言自动文摘

  • 跨语言自动文摘的目的在于为源语言 A 中的文档以目标语言 B 的形式产生摘要,从而方便了解语言 B 的读者快速了解原文档信息。并不完善的机器翻译性能是跨语言自动文摘的最大障碍,但是随着BERT等模型的出现,情况大为改善

多模态摘要

  • 文本、图像、视频音频相结合

面向复杂问题回答的自动摘要

  • 相对完整地回答非事实型问题(为什么,怎么样等)需要对单个文档甚至多个文档中的相关内容进行提取与聚合

总结

最后,纵观 30 余年来信息抽取的现状和发展趋势,我们有理由相信,随着海量数据资源(如 Web)、大规模深度机器学习技术(如深度学习)和大规模知识资源(如知识图谱)的蓬勃发展,信息抽取这一极具挑战性同时也极具实用性的问题将会得到相当程度的解决。同时,随着低成本、高适应性、高可扩展性、可处理开放域的信息抽取研究的推进,信息抽取技术的实用化和产业化将在现有的良好基础之上取得进一步的长足发展

情感分析经过十多年的发展,在某些领域上(例如产品评论、影评、宾馆、餐馆等)已经取得了相对成熟的发展和应用,在某些领域上达到了可完全实用的水准,但从一般意义上来说,情感分析还需要进行长期研究和探索,其最本质的难题还是语言文字的理解问题,依然存在非常多的挑战和待解的问题。

除了上述研究方向与问题之外,未来自动文摘将会越来越多地与其他技术(例如情感分析、人机对话等)相结合,面向全新的应用需求,形成更具特色的自动文摘任务,该领域的研究也将更加多样化。最后,我们有理由相信,随着语义分析、篇章理解、深度学习等技术的快速发展,自动文摘这一重要且有挑战性的自然语言处理问题在可预见的未来能够取得显著的研究进展,并且更多地应用于互联网产品与服务,从而体现自身的价值。

彩蛋

Next blog:信息检索(Chapter 11)& 信息推荐与过滤(Chapter 12)

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

striving长亮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值