毕设（一）问答对抽取及扩展系统的设计与实现

icse

已于 2023-03-19 23:41:28 修改

阅读量241

点赞数 1

分类专栏：问答系统文章标签： python 自然语言处理 Powered by 金山文档

于 2023-03-19 23:33:38 首次发布

本文链接：https://blog.csdn.net/qq_46438367/article/details/129648639

版权

问答系统专栏收录该内容

1 篇文章 0 订阅

订阅专栏

今天计划把这个数据集下载并解压成功

并且学一下自然语言处理的一些基础知识。

Spacy部分工具包

知识点1：defaultdict

from collections import  defaultdict

info = defaultdict(int)
info['a'] += 1
print(info['a'])

info = defaultdict(list)
info['a'].append(1)
info['a'].append(2)
print(info['a'])

info = defaultdict(set)
info['a'].add(1)
info['b'].add(2)
print(info)

知识点2：词性标注

对文档中的罕见词进行加权(通过将文档总数除以包含该项的文档数，然后取该商的对数得到).

注

# 词性标注
doc = nlp("Next week I'll be in Shanghai.")
print([(token.text, token.tag_) for token in doc])

具体的词性标注编码和含义见如下对应表：

知识点三：命名实体识别

命名实体识别是最重要的，或者我想说这是信息检索中的起始步骤。信息检索是从非结构化原始文本文档中提取重要和有用信息的技术。命名实体识别NER的工作原理是将非结构化文本中存在的命名实体定位并识别为标准类别，例如人名，位置，组织，时间表达，数量，货币价值，百分比，代码等。Spacy带有非常快速的统计实体为标签的连续范围分配标签的识别系统。

其他

知识点1：把文本按行读取为列表的函数

def read_file_to_list(file_name):
    with open(file_name, 'r') as file:
        return file.readlines()

知识点2：TD-IDF Model

2.1 TF-IDF解释

我找到了一个简易版的基于问答对的问答系统，是基于词袋模型和TF-IDF模型实现的，我今天学习一下TF-IDF模型。

TF(Term Frequency)：表示词汇频率。

假设我们有一套英文文本文档，并希望对与查询最相关的文档进行排名，搜索词为The Brown cow.我们最简单的方法是，删除不包含the，brown，cow所有这些词的文档，但如此操作后，仍剩余许多文档。为了进一步区分它们，需要计算这些搜索词在文档中出现的次数，我们将搜索词在文档中出现的频率称作词频(TF)，这个数字是对**词数（Term Count）**的归一化，以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否)。

如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这种搜索词加权可归纳为：

文档中出现的搜索词的权重与搜索词频率成正比

TF的不足之处：

它不能有效的过滤中止词，例如上述提到的the

IDF(Inverse document frequency)：表示逆向文档频率。

IDF是一个词语普遍重要性的度量(过滤中止词)

接着上面的例子讲，因为搜索词the很常见，TF(Term Frequency)倾向于错误地强调更频繁地使用“the”一词的文档（这里可以将the看作为中止词），而没有给予更有意义的术语“brown”和“cow”足够的权重。与不常见的单词“brown”和“cow”不同，术语“the”不是区分相关和非相关文档和术语的好关键词。因此，结合了逆文档频率因子，其减少了在文档集中频繁出现的术语的权重（降低中止词权重），并且增加了很少出现的词语的权重。这种加权可以归纳为：

词语的特异性可以量化为其出现的文档数量的反函数

2.2 模型解释

TF-IDF是两个统计量的乘积。有多种方法可以确定统计量的具体值。

词频(TF)

在术语频率 tf（t，d）的情况下，最简单的选择是使用文档中单词的原始计数，f(t,d)即单词t在文档d中出现的次数，即(t/d)。最简单的tf方案是tf（t，d）= f (t,d)。其他可能性包括：

布尔“频率”：TF（t,d）= 1，如果d中出现t为1，否则为0;

根据文件长度调整的词频： f(t,d)/ (d中的总词数);

对数缩放频率：TF（t,d）= log（1 + f(t,d) ） ;

增加频率，以防止偏向更长的文档，例如原始频率除以文档中最常出现的单词的原始频率：

词频（tf）权重的变体

IDF（逆向文档频率）

对文档中的罕见词进行加权(通过将文档总数除以包含该项的文档数，然后取该商的对数得到).

N表示语料库中的文档总数

tf(t,d)表示包含搜索词的文档数，搜索词不在语料库中时为0。则这将导致除零。因此，通常将分母调整为：

利用 lg1=0 解决0的问题

IDF（逆向文档频率）权重的变体

TF-IDF

下面给出TF-IDF的计算公式：

TF-DIF模型原理解释

通过高频词汇(在给定文件中）达到tf-idf的高权重，并且在整个文档集合中该搜索词的文档频率低; 因此，权重倾向于过滤掉常用术语。由于idf的log函数内的比率始终大于或等于1(比率为1时，idf值为0)，因此idf（和tf-idf）的值大于或等于0.当一个术语出现在更多文档中时，对数内的比率接近1 ，使idf和tf-idf更接近0。

nt越大(中止词越多)，比率越接近于1，idf的值越接近于0.

推荐的加权组合方案

2.3 实例展示

在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出现了 2 次、35 次和 5 次，那么它们的词频就分别是 0.002、0.035 和 0.005。我们将这三个数相加，其和 0.042 就是相应网页和查询“原子能的应用” 相关性的一个简单的度量。概括地讲，如果一个查询包含关键词 w1,w2,…,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, …, TFN.（TF: term frequency)。那么，这个查询和该网页的相关性就是:TF1 + TF2 + … + TFN。
在上面的例子中，词“的”占了总词频的 80% 以上，而它对确定网页的主题几乎没有用。我们称这种词叫“中止词”（Stopwords)，也就是说在度量相关性是不应考虑它们的频率。在汉语中，应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后，上述网页的相似度就变成了0.007，其中“原子能”贡献了 0.002，“应用”贡献了 0.005。细心的读者可能还会发现另一个小的漏洞。在汉语中，“应用”是个很通用的词，而“原子能”是个很专业的词，后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重，这个权重的设定必须满足下面两个条件：

一个词预测主题能力越强，权重就越大，反之，权重就越小。我们在网页中看到“原子能”这个词，或多或少地能了解网页的主题。我们看到“应用”一次，对主题基本上还是一无所知。因此，“原子能“的权重就应该比应用大。

应删除词的权重应该是零。

我们很容易发现，如果一个关键词只在很少的网页中出现，我们通过它就容易锁定搜索目标，它的权重也就应该大。反之如果一个词在大量网页中出现，我们看到它仍然不是很清楚要找什么内容，因此它应该小。概括地讲，假定一个关键词 w 在 Dw 个网页中出现过，那么 Dw 越大，w的权重越小，反之亦然。在信息检索中，使用最多的权重是“逆文本频率指数” （Inverse document frequency 缩写为IDF），它的公式为log（D/Dw）其中D是全部网页数。比如，我们假定中文网页数是D=10亿，应删除词“的”在所有的网页中都出现，即Dw=10亿，那么它的IDF=log(10亿/10亿）= log (1) = 0。假如专用词“原子能”在两百万个网页中出现，即Dw=200万，则它的权重IDF=log(500) =2.7。又假定通用词“应用”，出现在五亿个网页中，它的权重IDF = log(2)则只有 0.3。也就是说，在网页中找到一个“原子能”的匹配相当于找到九个“应用”的匹配。利用 IDF，上述相关性计算的公式就由词频的简单求和变成了加权求和，即 TF1IDF1 +　TF2IDF2 +… + TFN*IDFN。在上面的例子中，该网页和“原子能的应用”的相关性为 0.0069，其中“原子能”贡献了 0.0054，而“应用”只贡献了0.0015。这个比例和我们的直觉比较一致了。

部分资源来自CSDN博主「Ragty_」的原创文章。

原文链接：https://blog.csdn.net/huoji555/article/details/90732576