简单判断两个字符串的相似程度

最新推荐文章于 2024-07-01 17:56:03 发布

谁怕平生太急

最新推荐文章于 2024-07-01 17:56:03 发布

阅读量2.2k

点赞数 1

分类专栏：开发

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jinselizhi/article/details/104498011

版权

开发专栏收录该内容

27 篇文章 0 订阅

订阅专栏

可直接使用difflib.SequenceMatcher

def ratio(self):
        """Return a measure of the sequences' similarity (float in [0,1]).

        Where T is the total number of elements in both sequences, and
        M is the number of matches, this is 2.0*M / T.
        Note that this is 1 if the sequences are identical, and 0 if
        they have nothing in common.

        .ratio() is expensive to compute if you haven't already computed
        .get_matching_blocks() or .get_opcodes(), in which case you may
        want to try .quick_ratio() or .real_quick_ratio() first to get an
        upper bound.

        >>> s = SequenceMatcher(None, "abcd", "bcde")
        >>> s.ratio()
        0.75
        >>> s.quick_ratio()
        0.75
        >>> s.real_quick_ratio()
        1.0
        """

        matches = sum(triple[-1] for triple in self.get_matching_blocks())
        return _calculate_ratio(matches, len(self.a) + len(self.b))

具体代码：

import difflib

#判断相似度的方法，用到了difflib库
def get_similar(str1, str2):
   return difflib.SequenceMatcher(None, str1, str2).quick_ratio()

#执行方法进行验证
if __name__ == '__main__':
   a = '阿里巴巴集团创始人'
   b = '云南大学副教授'
   print(get_similar(a, b))

方法中相似度计算方式十分简单：
similar = 2M/T
M：两个字符串相同的字符数
T：两个字符串总字符数

谁怕平生太急

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

谁怕平生太急 CSDN认证博客专家 CSDN认证企业博客

码龄9年

161: 原创

3万+: 周排名

1万+: 总排名

15万+: 访问

: 等级

3126: 积分

376: 粉丝

534: 获赞

8: 评论

608: 收藏

私信

关注

热门文章

分类专栏

读书笔记 5篇
算法基础 9篇
中医 5篇
大模型 19篇
刷题 3篇
阅读 52篇
Agent 14篇
大神 2篇
生活 13篇
RAG 1篇
架构 1篇
数据 1篇
开发 27篇
读文章
百面机器学习的读书笔记 5篇

最新评论

LangGraph介绍
青青草原一只狼: 博主有找到LangGraph的标准实例吗
最简单的网络
谁怕平生太急: import torch from torch.utils.data import DataLoader, Dataset import numpy as np # 自定义数据集 class CustomDataset(Dataset): def __init__(self, data, labels): self.data = data self.labels = labels def __len__(self): return len(self.data) def __getitem__(self, idx): sample = self.data[idx] label = self.labels[idx] return sample, label # 创建示例数据 data = np.random.random((100, 3, 32, 32)) labels = np.random.randint(0, 10, 100) # 创建数据集和数据加载器 dataset = CustomDataset(data, labels) dataloader = DataLoader(dataset, batch_size=8, shuffle=True, num_workers=2)
大模型之DPO
谁怕平生太急: DPO开始训练时，reference model和policy model都是同一个模型，只不过在训练过程中reference model不会更新权重。
多模态模型基础
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Social IQA：Commonsense Reasoning about Social Interactions
ctotalk: thanks very good

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。