python匹配两个字符串相似度

最新推荐文章于 2024-07-16 19:26:54 发布

qq_40279560

最新推荐文章于 2024-07-16 19:26:54 发布

阅读量399

点赞数

文章标签： python 开发语言中文分词

本文链接：https://blog.csdn.net/qq_40279560/article/details/132859988

版权

python匹配两个字符串相似度

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def matching_similarity(self, str1, str2):
    # 使用结巴分词对字符串进行分词
    seg1 = jieba.lcut(str1)
    seg2 = jieba.lcut(str2)

    # 将分词结果转换为字符串
    seg_str1 = " ".join(seg1)
    seg_str2 = " ".join(seg2)

    # 使用TF-IDF向量化器将分词后的字符串转换为特征向量
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform([seg_str1, seg_str2])

    # 计算两个字符串的相似度（使用余弦相似度）
    similarity = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])[0][0]
    return similarity

if __name__ == '__main__':
	str1 = "龙华区锦湖大厦C栋C403-3,民治街道新牛社区工业东路"
	str2 = "龙华区民治街道新牛社区工业东路锦湖大厦C栋C403-3"
	matching_similarity(str1, str2)