问答系统搭建过程

最新推荐文章于 2023-06-29 04:27:27 发布

Alphapeople

最新推荐文章于 2023-06-29 04:27:27 发布

阅读量1.1k

点赞数 3

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/weixin_38241876/article/details/110130536

版权

自然语言处理专栏收录该内容

17 篇文章 2 订阅

订阅专栏

检索式的问答系统

问答系统所需要的数据已经提供，对于每一个问题都可以找得到相应的答案，所以可以理解为每一个样本数据是 <问题、答案>。那系统的核心是当用户输入一个问题的时候，首先要找到跟这个问题最相近的已经存储在库里的问题，然后直接返回相应的答案即可（但实际上也可以抽取其中的实体或者关键词)。举一个简单的例子：

假设我们的库里面已有存在以下几个<问题,答案>：

<"{}主要做什么方面的业务？”， “他们主要做人工智能方面的教育”>
<“国内有哪些做人工智能教育的公司？”， “{}”>
<"人工智能和机器学习的关系什么？", "其实机器学习是人工智能的一个范畴，很多人工智能的应用要基于机器学习的技术">
<"人工智能最核心的语言是什么？"， ”Python“>
.....

假设一个用户往系统中输入了问题 “{}是做什么的？”，那这时候系统先去匹配最相近的“已经存在库里的”问题。那在这里很显然是 “{}是做什么的”和“{}主要做什么方面的业务？”是最相近的。所以当我们定位到这个问题之后，直接返回它的答案 “他们主要做人工智能方面的教育”就可以了。所以这里的核心问题可以归结为计算两个问句（query）之间的相似度。

项目中涉及到的任务描述

问答系统看似简单，但其中涉及到的内容比较多。在这里先做一个简单的解释，总体来讲，我们即将要搭建的模块包括：

文本的读取：需要从相应的文件里读取(问题，答案)
文本预处理：清洗文本很重要，需要涉及到停用词过滤等工作
文本的表示：如果表示一个句子是非常核心的问题，这里会涉及到tf-idf, Glove以及BERT Embedding
文本相似度匹配：在基于检索式系统中一个核心的部分是计算文本之间的相似度，从而选择相似度最高的问题然后返回这些问题的答案
倒排表：为了加速搜索速度，我们需要设计倒排表来存储每一个词与出现的文本
词义匹配：直接使用倒排表会忽略到一些意思上相近但不完全一样的单词，我们需要做这部分的处理。我们需要提前构建好相似的单词然后搜索阶段使用
拼写纠错：我们不能保证用户输入的准确，所以第一步需要做用户输入检查，如果发现用户拼错了，我们需要及时在后台改正，然后按照修改后的在库里面搜索
文档的排序：最后返回结果的排序根据文档之间余弦相似度有关，同时也跟倒排表中匹配的单词有关

项目中需要的数据：

dev-v2.0.json: 这个数据包含了问题和答案的pair，但是以JSON格式存在，需要编写parser来提取出里面的问题和答案。
glove.6B: 这个文件需要从网上下载，下载地址为：https://nlp.stanford.edu/projects/glove/，请使用d=200的词向量
spell-errors.txt 这个文件主要用来编写拼写纠错模块。文件中第一列为正确的单词，之后列出来的单词都是常见的错误写法。但这里需要注意的一点是我们没有给出他们之间的概率，也就是p(错误|正确），所以我们可以认为每一种类型的错误都是同等概率
vocab.txt 这里列了几万个英文常见的单词，可以用这个词库来验证是否有些单词被拼错
testdata.txt 这里搜集了一些测试数据，可以用来测试自己的spell corrector。这个文件只是用来测试自己的程序。

第一部分：对于训练数据的处理：读取文件和预处理

文本的读取：需要从文本中读取数据，此处需要读取的文件是dev-v2.0.json，并把读取的文件存入一个列表里（list）
文本预处理：对于问题本身需要做一些停用词过滤等文本方面的处理
可视化分析：对于给定的样本数据，做一些可视化分析来更好地理解数据

1.1节：文本的读取

把给定的文本数据读入到qlist和alist当中，这两个分别是列表，其中qlist是问题的列表，alist是对应的答案列表

import json
def read_corpus():
    """
    读取给定的语料库，并把问题列表和答案列表分别写入到 qlist, alist 里面。 在此过程中，不用对字符换做任何的处理（这部分需要在 Part 2.3里处理）
    qlist = ["问题1"， “问题2”， “问题3” ....]
    alist = ["答案1", "答案2", "答案3" ....]
    务必要让每一个问题和答案对应起来（下标位置一致）
    """
    qlist = []
    alist = []
    datas = json.load(open('train-v2.0.json'))['data']
    for data in datas:
        paragraphs = data['paragraphs']
        for paragraph in paragraphs:
            qas = paragraph['qas']
            for qa in qas:
                question = qa['question']
                answers = qa['answers']
                qlist.append(question)
                alist.append(answers)
    assert len(qlist) == len(alist)  # 确保长度一样
    return qlist, alist

1.2 理解数据（可视化分析/统计信息）

对数据的理解是任何AI工作的第一步，需要对数据有个比较直观的认识。在这里，简单地统计一下：

在qlist出现的总单词个数
按照词频画一个histogram plot

import matplotlib.pyplot as plt
q,a = read_corpus()
# TODO: 统计一下在qlist中总共出现了多少个单词？ 总共出现了多少个不同的单词(unique word)？
#       这里需要做简单的分词，对于英文我们根据空格来分词即可，其他过滤暂不考虑（只需分词）

word = []
for s in q:
    s = s[:-1]
    for w in s:
        word.append(w)
word_dict = {}
for w in word:
    if w not in word_dict:
        word_dict[w] = 0
    else:
        word_dict[w] += 1
word_total = len(word_dict)
plt.hist(word)
plt.show()
print (word_total)

1.3 文本预处理

此部分需要做文本方面的处理。以下是可以用到的一些方法：

1. 停用词过滤（去网上搜一下 "english stop words list"，会出现很多包含停用词库的网页，或者直接使用NLTK自带的）
1. 转换成lower_case：这是一个基本的操作
1. 去掉一些无用的符号：比如连续的感叹号！！！，或者一些奇怪的单词。
1. 去掉出现频率很低的词：比如出现次数少于10,20.... （想一下如何选择阈值）
1. 对于数字的处理：分词完只有有些单词可能就是数字比如44，415，把所有这些数字都看成是一个单词，这个新的单词我们可以定义为 "#number"
1. lemmazation：在这里不要使用stemming，因为stemming的结果有可能不是valid word。

Alphapeople

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
问答系统搭建过程

检索式的问答系统问答系统所需要的数据已经提供，对于每一个问题都可以找得到相应的答案，所以可以理解为每一个样本数据是 <问题、答案>。那系统的核心是当用户输入一个问题的时候，首先要找到跟这个问题最相近的已经存储在库里的问题，然后直接返回相应的答案即可（但实际上也可以抽取其中的实体或者关键词)。举一个简单的例子：假设我们的库里面已有存在以下几个<问题,答案>：<"{}主要做什么方面的业务？”， “他们主要做人工智能方面的教育”> <“国内有哪些做人工智
复制链接

扫一扫