知识库问答KBQA的一些关键概念

最新推荐文章于 2025-04-02 19:41:00 发布

在代码的海洋里挣扎

最新推荐文章于 2025-04-02 19:41:00 发布

阅读量766

点赞数

文章标签：自然语言处理机器学习

评价标准

回召率 (Recall)，精确率 (Precision) ，F1-Score
而对话系统的评价标准以人工评价为主，以及BLEU和Perplexity。
参见：精确率和召回率

知识抽取：建立知识库

实体链指(Entity linking) ：即将文档中的实体名字链接到知识库中特定的实体上。它主要涉及自然语言处理领域的两个经典问题实体识别 (Entity Recognition) 与实体消歧 (Entity Disambiguation)，简单地来说，就是要从文档中识别出人名、地名、机构名、电影等命名实体。并且，在不同环境下同一实体名称可能存在歧义，如苹果，我们需要根据上下文环境进行消歧。
关系抽取 (Relation extraction)：即将文档中的实体关系抽取出来，主要涉及到的技术有词性标注 (Part-of-Speech tagging, POS)，语法分析，依存关系树 (dependency tree) 以及构建SVM、最大熵模型等分类器进行关系分类等

知识问答：方法过程

语义解析（Semantic Parsing）：该方法是一种偏linguistic的方法，主体思想是将自然语言转化为一系列形式化的逻辑形式（logic form）,通过对逻辑形式进行自底向上的解析，得到一种可以表达整个问题语义的逻辑形式，通过相应的查询语句（类似lambda-Caculus）在知识库中进行查询，从而得出答案)

信息抽取（Information Extraction）：该类方法通过提取问题中的实体，通过在知识库中查询该实体可以得到以该实体节点为中心的知识库子图，子图中的每一个节点或边都可以作为候选答案，通过观察问题依据某些规则或模板进行信息抽取，得到问题特征向量，建立分类器通过输入问题特征向量对候选答案进行筛选，从而得出最终答案。

向量建模（Vector Modeling）: 该方法思想和信息抽取的思想比较接近，根据问题得出候选答案，把问题和候选答案都映射为分布式表达（Distributed Embedding），通过训练数据对该分布式表达进行训练，使得问题和正确答案的向量表达的得分（通常以点乘为形式）尽量高，如下图所示。模型训练完成后则可根据候选答案的向量表达和问题表达的得分进行筛选，得出最终答案。

深度学习：
使用卷积神经网络对向量建模方法进行提升
使用卷积神经网络对语义解析方法进行提升
使用长短时记忆网络（Long Short-Term Memory，LSTM），卷积神经网络（Convolutional Neural Networks，CNNs）进行实体关系分类
使用记忆网络（Memory Networks），注意力机制（Attention Mechanism）进行KB-QA

语义解析

思路:通过对自然语言进行语义上的分析，转化成为一种能够让知识库“看懂”的语义表示，进而通过知识库中的知识，进行推理（Inference）查询（Query），得出最终的答案。简而言之，语义解析要做的事情，就是将自然语言的问题，转化为一种能够让知识库“看懂”的语义表示，这种语义表示即逻辑形式（Logic Form）。如果我们把知识库看作是一个数据库，那么逻辑形式（Logic Form）则可以看作是查询语句的表示。

词汇映射：即构造底层的语法树节点。将单个自然语言短语或单词映射到知识库实体或知识库实体关系所对应的逻辑形式。我们可以通过构造一个词汇表（Lexicon）来完成这样的映射。词汇表即自然语言与知识库实体或知识库实体关系的单点映射，这一操作也被称为对齐（Alignment）。

构建（Composition）：即自底向上对树的节点进行两两合并，最后生成根节点，完成语法树的构建。这一步有很多种方法，诸如构造大量手工规则，组合范畴语法
（Combinatory Categorical Grammars，CCG）等等。

信息抽取

该类方法通过提取问题中的实体，通过在知识库中查询该实体可以得到以该实体节点为中心的知识库子图，子图中的每一个节点或边都可以作为候选答案。通过观察问题，依据某些规则或模板进行信息抽取，得到表征问题和候选答案特征的特征向量，建立分类器，通过输入特征向量对候选答案进行筛选，从而得出最终答案。

向量建模

向量建模方法的思想和信息抽取的思想比较接近。首先根据问题中的主题词在知识库中确定候选答案。把问题和候选答案都映射到一个低维空间，得到它们的分布式表达（Distributed Embedding），通过训练数据对该分布式表达进行训练，使得问题向量和它对应的正确答案向量在低维空间的关联得分（通常以点乘为形式）尽量高。当模型训练完成后，则可根据候选答案的向量表达和问题表达的得分进行筛选，找出得分最高的作为最终答案。