如何在Python中实现文本相似度比较？

CodeJourney代码之旅

于 2024-05-10 05:15:00 发布

阅读量638

点赞数 5

分类专栏： python学习文章标签： python 开发语言

本文链接：https://blog.csdn.net/loethen/article/details/138501832

版权

python学习专栏收录该内容

70 篇文章 1 订阅

订阅专栏

在Python中实现文本相似度比较可以通过多种方法，每种方法都有其适用场景和优缺点。以下是一些常见的文本相似度比较方法：

1. 余弦相似度（Cosine Similarity）

余弦相似度是通过计算两个向量之间夹角的余弦值来确定它们之间的相似度。在文本处理中，可以使用TF-IDF（Term Frequency-Inverse Document Frequency）将文本转换为向量。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 示例文本
text1 = "The quick brown fox jumps over the lazy dog"
text2 = "A fast brown fox leaped over the dog"

# 使用TF-IDF向量化文本
vectorizer = TfidfVectorizer().fit_transform([text1, text2])

# 计算余弦相似度
cosine_sim = cosine_similarity(vectorizer[0:1], vectorizer[1:2])[0][0]
print(f"Cosine Similarity: {cosine_sim}")

2. Jaccard 相似度

Jaccard 相似度是衡量两个集合相似度的一种方法，通过计算两个集合交集的大小与并集的大小之比得到。

def jaccard_similarity(text1, text2):
    set1 = set(text1.split())
    set2 = set(text2.split())
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    return len(intersection) / len(union)

text1 = "The quick brown fox jumps over the lazy dog"
text2 = "A fast brown fox leaped over the dog"

similarity = jaccard_similarity(text1, text2)
print(f"Jaccard Similarity: {similarity}")

3. Levenshtein 距离（编辑距离）

Levenshtein 距离是两个序列之间的距离，定义为将一个序列转换为另一个序列所需的最少单字符编辑（插入、删除或替换）次数。

from Levenshtein import distance

text1 = "example text one"
text2 = "sample text one"

distance = distance(text1, text2)
similarity = 1 - distance / max(len(text1), len(text2))
print(f"Levenshtein Similarity: {similarity}")

4. Ratcliff/Obershelp 算法

这是一种字符串比较算法，用于计算两个字符串之间的相似度。

from ratcliff_obershelp import similarity

text1 = "example text one"
text2 = "sample text one"

similarity_score = similarity(text1, text2)
print(f"Ratcliff/Obershelp Similarity: {similarity_score}")

5. Word2Vec 和 Doc2Vec

这些是基于深度学习的文本相似度比较方法，它们使用预训练的词嵌入（如Word2Vec）或文档嵌入（如Doc2Vec）来将文本转换为向量，然后使用余弦相似度等度量来比较这些向量。

from gensim.models import Word2Vec

# 假设word2vec_model是一个预训练的Word2Vec模型
text1 = "The quick brown fox jumps over the lazy dog"
text2 = "A fast brown fox leaped over the dog"

# 使用Word2Vec模型将文本转换为向量
vector1 = word2vec_model.wmdistance(text1.split(), text2.split())
print(f"Word2Vec Similarity: {vector1}")

6. BERT 和其他 Transformer 模型

最新的自然语言处理模型，如BERT，可以用于计算文本之间的相似度。这些模型能够捕捉到文本的深层语义信息。

from transformers import BertModel, BertTokenizer

# 初始化BERT的分词器和模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 将文本转换为BERT的输入格式
text1 = "The quick brown fox jumps over the lazy dog"
text2 = "A fast brown fox leaped over the dog"

encoded1 = tokenizer(text1, return_tensors='pt')
encoded2 = tokenizer(text2, return_tensors='pt')

# 使用BERT模型获取向量表示
with torch.no_grad():
    output1 = model(**encoded1)
    output2 = model(**encoded2)

# 计算余弦相似度
cosine_sim = cosine_similarity(output1.last_hidden_state[:, 0, :], output2.last_hidden_state[:, 0, :])[0][0]
print(f"BERT Similarity: {cosine_sim}")