Java技能关键词纠错——计算两字符串最长公共子序列（动态规划）

最新推荐文章于 2024-07-25 15:34:21 发布

笔墨留年

最新推荐文章于 2024-07-25 15:34:21 发布

阅读量541

点赞数 1

分类专栏：数据结构与算法文章标签： python 动态规划字符串相似度最长公共子序列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aaronjny/article/details/101443598

版权

本文介绍了如何使用动态规划算法解决Java技能关键词纠错问题，通过计算两字符串最长公共子序列来判断是否为拼写错误或遗漏。在Python3中实现了动态规划算法，并在实际业务中应用。

摘要由CSDN通过智能技术生成

前言

最近在做一项功能，需要自动从招聘文本中提取技能需求关键词。然而问题来了，请看下面这句招聘需求：

2、熟练掌握SpringMVC、Srping、Mybetis或者hibernate，熟悉Jquery，EasyUI或者AngularJS；

稍微仔细点看，比较熟悉Java的兄dei可能已经发现了，WTF？Spring、MyBatis哭晕在厕所……

是哪家公司的我就不说了哈，影响不好，可能就是单纯手误吧。

然而，我就需要多做一项工作——纠错。从招聘文本中提取的关键词，不能直接作为结果，还需要使用对可能的手误打错、粘贴漏字这些问题进行处理，对可能为错误的关键词进行纠正。

整体的思路是这样的：

1.我写了一个提取器，可以按照特定的规则从招聘文本中提取可能的关键词
2.我建立了一个小型的java关键词库。但不属于这个词库的、可能的关键词，也能被1中的提取器识别出来。
3.对于所有提取的技能关键词，尝试和词库进行匹配（匹配时关键词和词库统一转成小写，避免大小写不一致产生的问题），如果匹配上了，说明这个词大概率没有拼写问题，跳过。
4.如果在3中没有匹配上，且这个词里面含有中文，也认为它没有拼写问题，跳过。
5.如果在3中没有匹配上，且这个词是英文词，我们将它与词库进行模糊匹配，匹配上了，则认为它的拼写有问题，进行纠正；没匹配上，认为它是被模型发现的新技能关键词，是正确的。

那么，问题的关键就是，怎么做模糊匹配。

想了一下，拼写错误或者粘贴漏字也不可能太离谱吧？对于有一定长度的关键词（比如长度>=5），当它和词库里的一个关键词只有不超过一定个数（比如2个）的字符有差异，其他完全相同的话，是不是就有较大概率认为它们是同一个词？

再仔细一想，这不就是最长公共子序列吗？！卧槽？！

没想到不打比赛这么久之后，我竟然有看到了这个词……讲道理这还是第一次在工作中用到ACM里面学到的算法知识？数据结构就不算了，经常用。

好吧，那就开始做题吧。回忆了一会儿，开始写动态规划……一堆废话的前言结束了。

用Python3实现最长公共子序列

动态规划是什么，我就不多说了，大家可以参考wiki。

简单来说，就是把一个复杂的问题拆解成一步步的小问题，由简单的状态开始，逐步递推，直到计算出最终状态，即我们需要的结果。

一般来说，写动态规划都是从寻找递推公式开始的。

对于当前这个问题，我们假设有字符串s1和s2，它们的长度分别为n和m，用数组dp记录最长公共子序列的长度（dp[i][j]表示的是s1[:i]和s2[:j]的最长公共子序列的长度。ps:刚刚那个写法是切片，点进我的博客的应该多多少少都了解些python，这种基础语法我就不解释了= =）。

那么dp[i][j]的数值是由谁决定的呢（这里i和j是从1开始的，dp[i][j]=0）？

我们可以想一下，假如s1[i-1]和s2[j-1]是相等的（参考上面一句，这里下标从0开始，所以要-1），那么它们就可以作为公共子序列的一部分，接入到s1[:i]和s2[:j]的最长公共子序列中去。而按照递推来看,dp[i-1][j-1]是我们已经算出来的，所以dp[i][j]=dp[i-1][j-1]+1。

如果s1[i-1]和s2[j-1]不相等呢？如果不相等，那我们就不用考虑dp[i-1][j-1]了，因为不论是dp[i][j-1]还是dp[i-1][j]都一定大于等于它。在s1[i-1]!=s2[j-1]的情况下，dp[i][j]只能从dp[i-1][j]和dp[i][j-1]中选择，我们要的是最长子序列，选择最大的即可。

那么，递推公式可以这么表示：

solo上面的markdown对LaTeX的解析好像有点问题，所以我直接放截图了。

动态规划麻烦就麻烦在递推公式推导方面，推出来之后就好办了，编码而已嘛。

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。