基于深度学习方法的垂直领域实体关系分析研究

最新推荐文章于 2024-02-06 14:23:54 发布

羽_羊

最新推荐文章于 2024-02-06 14:23:54 发布

阅读量1.3k

点赞数

分类专栏：关系抽取

本文链接：https://blog.csdn.net/m0_38031488/article/details/81133869

版权

本文探讨了深度学习在垂直领域实体关系分析中的应用，关系抽取作为信息抽取的关键子任务，对于对话系统理解用户意图和构建知识库至关重要。当前，有监督学习方法在关系抽取中表现出色，但面临缺乏大规模标注语料的问题。远程监督方法能生成大量训练数据，但也存在错误标注和误差传播问题。未来研究焦点包括使用注意力机制和多实例学习去噪，以及采用深度学习的联合学习来减少错误传播。

摘要由CSDN通过智能技术生成

1.应用前景

随着互联网时代的高速发展，人们能够获取到的信息量也成指数级增长。最初信息检索的任务是由搜索引擎完成，是一种基于关键词检索的方法，抓取互联网上海量的网页进行关键词提取并建立倒排表，利用 PageRank [1]算法针对用户的输入返回所有命中的有权重优先的网页链接，然而这样的检索结果规模很大，并且结果之间存在冗余或者冲突的情况，用户很难快速从搜索引擎的返回结果中二次筛选出理想的答案[2]。随着可移动便携式设备的普及，新的交互方式如语音输入等，使得传统搜索引擎并不再适用于现代生活的场景。相应的，更直观的“文本进文本出”甚至是“语音进语音出”更符合人类的认知习惯，问答系统满足了这一需求[3]。而为了使现有的系统更加的符合人们的交流习惯、更好的利用用户输入的上下文信息，对话系统在此基础上应用而生[4]。使得用户不需要去按照系统的要求去凝结关键词，可以在更加自然的对话环境下向系统提出需求。

对于自然语言处理方面，我们更习惯于将各种模式的输入信息转化为文字的形式来作为对话系统的输入。那么作为对话系统的唯一输入，其肩负着理解用户输入的重任[5]。使系统正确的理解输入的自然语言并不简单，首先我们要做的是对输入文本的信息抽取[6]，而关系抽取作为信息抽取的重要子任务[7]，其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据，关系抽取主要负责从文本中识别出实体，抽取实体间的语义关系[8]。我们能正确的理解其中的语义关系对于用户的意图分析显得至关重要[9]，而转化而成的结构化数据往往又会作为对话系统的知识库，相当于对话系统的数据中心[10]。鉴于关系抽取在对话系统中的重要地位，以及对话系统所面临的大规模语料，使用深度学习方法来解决关系抽取在大规模语料上所面临的困境成为自然的想法。

2.国内外研究现状分析

在自然语言处理（Natural Language Processing）领域中，对话系统 (多轮次对话的问答系统) 是一个广受关注的研究分支[11]。同时该领域也细分为垂直领域（只针对某一特定领域）以及开放领域。其中垂直领域问答系统最早可以追溯到上世纪60 年代，一款名为 Baseball [12]率先敲开了问答系统的大门，它能够回答棒球知识以及美国职业棒球联赛球队球员的信息，使用的是规整的结构化数据以及预设的固定回答逻辑，在如今信息爆炸的大背景下，固化的对话逻辑以及对数据要求的苛刻使得当时的系统结构很快被淘汰。当今互联网公司相继发布各自的客服机器人，并且采用机器客服无法解析的情况进行人工干预的策略[13]，比较常见的是电商行业以及需要大量售后服务的行业。学术界对于垂直领域问答系统的研究也一直热度很高，近年来，陆续有关于医疗、音乐、手机等问答系统问世。

除了垂直领域，开放领域（Open Domain）对话系统往往更受市场欢迎[14]。后者不限制语料的领域，通用性较高, 如今的工业界将传统意义的问答系统与闲聊机器人整合，一批新型服务型机器人问世，如苹果的 Siri，微软的 Cortana，百度的度秘等等[15]，这些服务型机器人已经逐渐转型为生活助理，同时有赖于语音识别在近几年的发展（语音识别准确率是问答系统主要瓶颈之一），这些机器人提供了更好的用户体验，吸引了大量关注。

虽然现阶段的各种无论是垂直领域还是开放领域问答系统都在各自的行业取得了不错的成就，但是随着时代发展，人们不再满足于传统的“一问一答”模式，希望能够在一些更灵活的场景完成更多

轮次的对话，比如机场订票，