字符串按相似度分组

最新推荐文章于 2023-07-20 00:30:00 发布

EricLi404

最新推荐文章于 2023-07-20 00:30:00 发布

阅读量1.6k

点赞数 3

分类专栏： Golang 算法文章标签： golang

本文链接：https://blog.csdn.net/leiflyy/article/details/100569746

版权

相关代码已经上传GitHub ： https://github.com/EricLi404/go-utils

0x00 概述

在做在做反垃圾账号业务的时候，检测发现有几十名用户都在某个IP上有过行为打点。

# 原始数据
꧁❥?➦SAMI?MMS➣?❥꧂
꧁❥?➦Ⓜ️AHI?MMS➣?❥꧂..
jgcch7b?V?O?I?
2kc7fd7?V?O?I?
꧁❥?➦VIDYA?MMS➣?❥꧂
RcR?Raden??F
RcR?Raden?B
꧁❥?➦RESMA?MMS➣?❥꧂
Sanny8_star197
꧁❥?PARI?MMS➣?❥꧂
❁════❃MAHAKAL❃══7══❁
꧁❥?BIPASHA?MMS➣?❥꧂
.꧁❥?ISRAT?MMS?꧂
ek8660?V?O?I? 
a8h9163?V?O?I?
꧁❥?➦NIRA?➣?❥꧂
꧁❥?PARINEETI?MMS?꧂
RcR?Raden?J
dem3ba2?V?O?I?
ggk5b27?V?O?I?
?RcR?Raden??

可以很明显的感知到其中部分账号存在一定的相似性，现需要将这几十名用户按相似性分为若干组，因此提出了一种基莱文斯坦距离和并查集结构的算法，来实现将一组字符串按相似度提取出若干不重复组的功能。