【自然语言处理】文本相似度算法：TF-IDF与BM25

G皮T

已于 2023-11-03 23:32:47 修改

阅读量1.8k

点赞数 7

分类专栏： # 自然语言处理文章标签：自然语言处理算法 tf-idf BM25 文本相似

于 2023-01-11 17:07:24 首次发布

本文链接：https://blog.csdn.net/be_racle/article/details/128644284

版权

自然语言处理专栏收录该内容

16 篇文章 20 订阅

订阅专栏

文本相似度算法：TF-IDF与BM25

1.TF-IDF

TF（Term Frequency）是指归一化后的词频，IDF（Inverse Document Frequency）是指逆文档频率。给定一个文档集合 $D$ ，有 $d_1, d_2, d_3, ......, dn∈D$ 。文档集合总共包含 $m$ 个词（注：一般在计算 TF−IDF 时会去除如 “的” 这一类的停用词），有 $w_1, w_2, w_3, ......, w_m∈W$ 。我们现在以计算词 $w_i$ 在文档 $d_j$ 中的 TF−IDF 值为例。
$TF=\frac{freq(i,j)}{len(d_j)}$ 其中 $f re q (i, j)$ 为 $w_i$ 在 $d_j$ 中出现的频率， $len(d_j)$ 为 $d_j$ 长度，即文档的总词数。

TF 只能描述词在文档中的频率，但假设现在有个词为 “我们”，这个词可能在文档集 $D$ 中每篇文档中都会出现，并且有较高的频率。那么这一类词就不具有很好的区分文档的能力，为了降低这种通用词的作用，引入了 IDF。
$IDF=log(\frac{len(D)}{n(i)+1})$ 其中 $l e n (D)$ 表示文档集合 $D$ 中文档的总数， $n (i)$ 表示含有 $w_i$ 这个词的文档的数量。如果一个词越常见，那么分母就越大，逆文档频率就越小越接近 0。分母之所以要加 1，是为了避免分母为 0（即所有文档都不包含该词）。
$TF - I D F = 词频 (TF) \times 逆文档频率 (I D F)$ TF 可以计算在一篇文档中词出现的频率，而 IDF 可以降低一些通用词的作用。因此对于一篇文档我们可以用文档中每个词的 TF−IDF 组成的向量来表示该文档，再根据余弦相似度这类的方法来计算文档之间的相关性。

2.BM25

BM25 算法通常用来做搜索相关性评分的，也是 ES 中的搜索算法，通常用来计算 $q u ery$ 和文本集合 $D$ 中每篇文本之间的相关性。我们用 $Q$ 表示 $q u ery$ ，在这里 $Q$ 一般是一个句子。在这里我们要对 $Q$ 进行语素解析（一般是分词），在这里以分词为例，我们对 $Q$ 进行分词，得到 $q_1,q_2,......,q_t$ 这样一个词序列。给定文本 $d \in D$ ，现在以计算 $Q$ 和 $d$ 之间的分数（相关性），其表达式如下： $Score(Q,d)=\sum^{t}_{i=1}w_i*R(q_i,d)$ 其中 $w_i$ 表示 $q_i$ 的权重， $R(q_i,d)$ 为 $q_i$ 和 $d$ 的相关性， $S core (Q, d)$ 就是每个语素 $q_i$ 和 $d$ 的相关性的加权和。

$w_i$ 的计算方法有很多，一般是用 IDF 来表示的，但这里的 IDF 计算和上面的有所不同，具体的表达式如下： $w_i=IDF(q_i)=log\frac{N-n(q_i)+0.5}{n(q_i)+0.5}$ 其中 $N$ 表示文本集合中文本的总数量， $n(q_i)$ 表示包含 $q_i$ 这个词的文本的数量，0.5 主要是做平滑处理。

$R(q_i,d)$ 的计算公式如下： $R(q_i,d)=\frac{f_i*(k_1+1)}{f_i+K}*\frac{qf_i*(k_2+1)}{qf_i+k_2}$ 其中： $K=k_1*(1-b+b*\frac{dl}{avgdl})$
$f_i$ 为 $q_i$ 在文本 $d$ 中出现的频率， $qf_i$ 为 $q_i$ 在 $Q$ 中出现的频率， $k_1$ 、 $k_2$ 、 $b$ 都是可调节的参数， $d l$ 、 $a vg d l$ 分别为文本 $d$ 的长度和文本集 $D$ 中所有文本的平均长度。

一般 $qf_i=1$ ，取 $k_2=0$ ，则可以去除后一项，将上面式子改写成： $R(q_i,d)=\frac{f_i*(k_1+1)}{f_i+K}$ 通常设置 $k_1=2$ ， $b = 0.75$ 。参数 $b$ 的作用主要是调节文本长度对相关性的影响。

3.BM25实现

SnowNLP 是一个 Python 写的类库，可以方便的处理中文文本内容，是受到了 TextBlob 的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库，并且和 TextBlob 不同的是，这里没有用 NLTK，所有的算法都是自己实现的，并且自带了一些训练好的字典。

SnowNLP 中的相似算法即是 BM25 实现的，源码如下所示。

# -*- coding: utf-8 -*-
from __future__ import unicode_literals

import math

class BM25(object):

    def __init__(self, docs):
        self.D = len(docs)
        self.avgdl = sum([len(doc)+0.0 for doc in docs]) / self.D
        self.docs = docs
        self.f = []
        self.df = {}
        self.idf = {}
        self.k1 = 1.5
        self.b = 0.75
        self.init()

    def init(self):
        for doc in self.docs:
            tmp = {}
            for word in doc:
                if not word in tmp:
                    tmp[word] = 0
                tmp[word] += 1
            self.f.append(tmp)
            for k, v in tmp.items():
                if k not in self.df:
                    self.df[k] = 0
                self.df[k] += 1
        for k, v in self.df.items():
            self.idf[k] = math.log(self.D-v+0.5)-math.log(v+0.5) # 对应上文提到的 wi

    def sim(self, doc, index):
        score = 0
        for word in doc:
            if word not in self.f[index]:
                continue
            d = len(self.docs[index])
            score += (self.idf[word]*self.f[index][word]*(self.k1+1)
                      / (self.f[index][word]+self.k1*(1-self.b+self.b*d
                                                      / self.avgdl))) # 对应上文提到的 wi * R(qi,d)
        return score

    def simall(self, doc):
        scores = []
        for index in range(self.D):
            score = self.sim(doc, index)
            scores.append(score)
        return scores