基于TF-IDF和KNN的模糊字符串匹配优化的实际应用

最新推荐文章于 2022-12-15 20:20:42 发布

VIP文章土豆男孩

最新推荐文章于 2022-12-15 20:20:42 发布

阅读量752

点赞数

分类专栏： ML 文章标签：自然语言处理 python tf-idf 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tcguoxing/article/details/122122148

版权

基于TF-IDF和KNN的模糊字符串匹配优化的实际应用

使用背景

使用背景

由于最近公司数据清理的需求，需要对两组中文名称数据进行匹配，在使用Excel的基本匹配功能之后，在待匹配组大概还有900多条数据没有得到匹配，于是便想用其他方法来匹配，以期望在获得不错准确率的前提下提高效率。

基于TF-IDF和KNN的模糊字符串匹配

基于TF-IDF和KNN的模糊字符串匹配优化具体原理介绍请看这篇文档：
具体效果
在网上寻找方法的过程中，找到了这篇文章《【NLP】基于TF-IDF和KNN的模糊字符串匹配优化》文章中对“乔治·华盛顿和G·华盛顿”的匹配对比，这不就正是我需要的吗，于是便按照教程写了程序方法，实际使用下来，哟嚯，果真不错。
感觉满意的地方有两点：

速度太快了
我的待匹配数组有900多条，但匹配组中有四万九千条，也就是从50000条中找出900条匹配上，总用时为：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于TF-IDF和KNN的模糊字符串匹配优化的实际应用

基于TF-IDF和KNN的模糊字符串匹配优化的实际应用使用原因技术讲解实际应用与FuzzyWuzzy对比如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入使用原因你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器,
复制链接

扫一扫

专栏目录

土豆男孩 CSDN认证博客专家 CSDN认证企业博客

码龄11年

11: 原创

22万+: 周排名

134万+: 总排名

2万+: 访问

: 等级

403: 积分

1: 粉丝

11: 获赞

5: 评论

32: 收藏

私信

关注

热门文章

分类专栏

ML 1篇
MYsql 1篇
MVVM 1篇
WPF 3篇
C# 3篇
ASP.NET 1篇
Raspberry 2篇
VNC server 1篇

最新评论

Navicat链接树莓派Mysql报错2003
土豆男孩: 两年前的文章，我都忘记这是我写的了
Navicat链接树莓派Mysql报错2003
Jonathan Star: 成了热泪盈眶o(╥﹏╥)o
新手在Ubuntu上安装Hadoop时碰到的两个坑
ctotalk: 感谢分享，学以致用。
Thread.sleep的用法（搭配异步处理）
Ang Ga Ga: 您好！有一个问题我不理解，线程如果调用了 sleep 方法，休眠期间就不参与CPU 调度，那如果其他线程执行了这个线程的 interrupt 方法，这个线程是不参与 CPU 调度啊，怎么去判断中断标志位，进一步抛出异常呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。