Java技能关键词纠错——计算两字符串最长公共子序列(动态规划)

本文介绍了如何使用动态规划算法解决Java技能关键词纠错问题,通过计算两字符串最长公共子序列来判断是否为拼写错误或遗漏。在Python3中实现了动态规划算法,并在实际业务中应用。
摘要由CSDN通过智能技术生成

前言

最近在做一项功能,需要自动从招聘文本中提取技能需求关键词。然而问题来了,请看下面这句招聘需求:

2、 熟练掌握SpringMVC、Srping、Mybetis或者hibernate,熟悉Jquery,EasyUI或者AngularJS;

稍微仔细点看,比较熟悉Java的兄dei可能已经发现了,WTF?SpringMyBatis哭晕在厕所……

wtf.jpeg

是哪家公司的我就不说了哈,影响不好,可能就是单纯手误吧。

然而,我就需要多做一项工作——纠错。从招聘文本中提取的关键词,不能直接作为结果,还需要使用对可能的手误打错、粘贴漏字这些问题进行处理,对可能为错误的关键词进行纠正。

image.png

整体的思路是这样的:

  • 1.我写了一个提取器,可以按照特定的规则从招聘文本中提取可能的关键词
  • 2.我建立了一个小型的java关键词库。但不属于这个词库的、可能的关键词,也能被1中的提取器识别出来。
  • 3.对于所有提取的技能关键词,尝试和词库进行匹配(匹配时关键词和词库统一转成小写,避免大小写不一致产生的问题),如果匹配上了,说明这个词大概率没有拼写问题,跳过。
  • 4.如果在3中没有匹配上,且这个词里面含有中文,也认为它没有拼写问题,跳过。
  • 5.如果在3中没有匹配上,且这个词是英文词,我们将它与词库进行模糊匹配,匹配上了,则认为它的拼写有问题,进行纠正;没匹配上,认为它是被模型发现的新技能关键词,是正确的。

那么,问题的关键就是,怎么做模糊匹配。

image.png

想了一下,拼写错误或者粘贴漏字也不可能太离谱吧?对于有一定长度的关键词(比如长度>=5),当它和词库里的一个关键词只有不超过一定个数(比如2个)的字符有差异,其他完全相同的话,是不是就有较大概率认为它们是同一个词?

再仔细一想,这不就是最长公共子序列吗?!卧槽?!

image.png

没想到不打比赛这么久之后,我竟然有看到了这个词……讲道理这还是第一次在工作中用到ACM里面学到的算法知识?数据结构就不算了,经常用。

好吧,那就开始做题吧。回忆了一会儿,开始写动态规划……一堆废话的前言结束了。

image.png

用Python3实现最长公共子序列

动态规划是什么,我就不多说了,大家可以参考wiki

简单来说,就是把一个复杂的问题拆解成一步步的小问题,由简单的状态开始,逐步递推,直到计算出最终状态,即我们需要的结果。

一般来说,写动态规划都是从寻找递推公式开始的。

对于当前这个问题,我们假设有字符串s1和s2,它们的长度分别为n和m,用数组dp记录最长公共子序列的长度(dp[i][j]表示的是s1[:i]和s2[:j]的最长公共子序列的长度。ps:刚刚那个写法是切片,点进我的博客的应该多多少少都了解些python,这种基础语法我就不解释了= =)。

那么dp[i][j]的数值是由谁决定的呢(这里i和j是从1开始的,dp[i][j]=0)?

我们可以想一下,假如s1[i-1]和s2[j-1]是相等的(参考上面一句,这里下标从0开始,所以要-1),那么它们就可以作为公共子序列的一部分,接入到s1[:i]和s2[:j]的最长公共子序列中去。而按照递推来看,dp[i-1][j-1]是我们已经算出来的,所以dp[i][j]=dp[i-1][j-1]+1。

如果s1[i-1]和s2[j-1]不相等呢?如果不相等,那我们就不用考虑dp[i-1][j-1]了,因为不论是dp[i][j-1]还是dp[i-1][j]都一定大于等于它。在s1[i-1]!=s2[j-1]的情况下,dp[i][j]只能从dp[i-1][j]和dp[i][j-1]中选择,我们要的是最长子序列,选择最大的即可。

那么,递推公式可以这么表示:

image.png

solo上面的markdown对LaTeX的解析好像有点问题,所以我直接放截图了。

动态规划麻烦就麻烦在递推公式推导方面,推出来之后就好办了,编码而已嘛。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值