python实现字符串相似度比较排序

菜鸟001号

已于 2024-04-19 14:14:38 修改

阅读量289

点赞数 1

文章标签： python 开发语言

于 2024-04-19 12:11:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37189286/article/details/137960140

版权

需求背景：

数据中台建设完成时，在录入大量词根/字典后，搜索长用词根/字典时很不方便。比如"is",这个词根在很多单次中都会存在，如果不做返回结果的排序，那么查询使用时很不方便。

思路：

我们可以将搜索关键词和搜索返回结果进行长度比较。然后按照从大到小排序（完全相同则为100%），实现相似度排序的效果。

python实现：

定义变量：

    ## 搜索关键词
    word = "aa"
    
    ## 词根/字典
    list1 = ["aaa", "aaaaaaaa",  "aaaaa", "aaaaaa", "aaaa","bbb", "ccc"]


    ## 过滤掉非匹配词根/字典结果数据存储
    list2 = []

    ##相似度计算结果
    dict1 = {}

过滤不匹配词根/字典,相似度计算：

    for i in list1:
        if word in i :
            list2.append(i)
            dict1[i] = len(word)/len(i)

    print(list2)
    print(dict1)
    ## ['aaa', 'aaaaaaaa', 'aaaaa', 'aaaaaa', 'aaaa']
    ## {'aaa': 0.6666666666666666, 'aaaaaaaa': 0.25, 'aaaaa': 0.4, 'aaaaaa': 0.3333333333333333, 'aaaa': 0.5}

根据相似度对结果进行排序：

    import operator
    sorted_dict = dict(sorted(dict1.items(),key=operator.itemgetter(1),reverse=True))
    print(sorted_dict)

    ##{'aaa': 0.6666666666666666, 'aaaa': 0.5, 'aaaaa': 0.4, 'aaaaaa': 0.3333333333333333, 'aaaaaaaa': 0.25}
    
    
    ##对列表排序
    sorted_list = sorted(list2, key=lambda x: dict1.get(x),reverse=True)
    print(sorted_list)

    ## ['aaa', 'aaaa', 'aaaaa', 'aaaaaa', 'aaaaaaaa']

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
python实现字符串相似度比较排序

通过python实现搜索关键词和搜索返回结果进行长度比较。然后按照相似度从大到小排序
复制链接

扫一扫

菜鸟001号 CSDN认证博客专家 CSDN认证企业博客

码龄8年

10: 原创

116万+: 周排名

12万+: 总排名

3万+: 访问

: 等级

175: 积分

21: 粉丝

43: 获赞

11: 评论

51: 收藏

私信

关注

热门文章

分类专栏

最新评论

python实现字符串相似度比较排序
CSDN-Ada助手: 恭喜博主发布了第10篇博客，标题“python实现字符串相似度比较排序”，内容十分有趣和实用！希望博主能继续坚持创作，分享更多有价值的内容给读者。或许下一步可以尝试探讨如何利用Python实现文本分类或情感分析等更深入的主题，期待博主的精彩文章！愿您不断进步，谢谢分享！
hive中内部表和外部表有什么区别？一般什么时候使用内部表什么时候使用外部表？
JSU_曾是此间年少: 外部表给我看蒙了
DORIS-sql-bug记录
CSDN-Ada助手: 非常感谢您分享关于DORIS-sql-bug的记录！恭喜您完成了第9篇博客！持续创作是非常了不起的成就，您的努力和热情值得称赞。通过记录这些bug，您不仅为读者提供了宝贵的经验教训，也为开发者们提供了宝贵的参考。在下一步的创作中，我建议您可以进一步探索如何避免这些bug的发生，以及如何提高代码的质量和可靠性。期待您在未来的博客中继续分享您的经验和见解！
hive中内部表和外部表有什么区别？一般什么时候使用内部表什么时候使用外部表？
ekolzzz: ”对于外部表，删除表格时，仅删除元数据(meta data)。即仅删除表格，不会删除元数据。“应该是不会删除源数据，不是元数据
hive中小数点处理函数
菜鸟001号: select regexp_extract(-15.686861,'(-[0-9]*.[0-9][0-9])',1) 这样满足需要么

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。