前言
最近在做一项功能,需要自动从招聘文本中提取技能需求关键词。然而问题来了,请看下面这句招聘需求:
2、 熟练掌握SpringMVC、Srping、Mybetis或者hibernate,熟悉Jquery,EasyUI或者AngularJS;
稍微仔细点看,比较熟悉Java的兄dei可能已经发现了,WTF?Spring
、MyBatis
哭晕在厕所……
是哪家公司的我就不说了哈,影响不好,可能就是单纯手误吧。
然而,我就需要多做一项工作——纠错。从招聘文本中提取的关键词,不能直接作为结果,还需要使用对可能的手误打错、粘贴漏字这些问题进行处理,对可能为错误的关键词进行纠正。
整体的思路是这样的:
- 1.我写了一个提取器,可以按照特定的规则从招聘文本中提取可能的关键词
- 2.我建立了一个小型的java关键词库。但不属于这个词库的、可能的关键词,也能被1中的提取器识别出来。
- 3.对于所有提取的技能关键词,尝试和词库进行匹配(匹配时关键词和词库统一转成小写,避免大小写不一致产生的问题),如果匹配上了,说明这个词大概率没有拼写问题,跳过。
- 4.如果在3中没有匹配上,且这个词里面含有中文,也认为它没有拼写问题,跳过。
- 5.如果在3中没有匹配上,且这个词是英文词,我们将它与词库进行
模糊匹配
,匹配上了,则认为它的拼写有问题,进行纠正;没匹配上,认为它是被模型发现的新技能关键词,是正确的。
那么,问题的关键就是,怎么做模糊匹配。
想了一下,拼写错误或者粘贴漏字也不可能太离谱吧?对于有一定长度的关键词(比如长度>=5),当它和词库里的一个关键词只有不超过一定个数(比如2个)的字符有差异,其他完全相同的话,是不是就有较大概率认为它们是同一个词?
再仔细一想,这不就是最长公共子序列吗?!卧槽?!
没想到不打比赛这么久之后,我竟然有看到了这个词……讲道理这还是第一次在工作中用到ACM里面学到的算法知识?数据结构就不算了,经常用。
好吧,那就开始做题吧。回忆了一会儿,开始写动态规划……一堆废话的前言结束了。
用Python3实现最长公共子序列
动态规划是什么,我就不多说了,大家可以参考wiki。
简单来说,就是把一个复杂的问题拆解成一步步的小问题,由简单的状态开始,逐步递推,直到计算出最终状态,即我们需要的结果。
一般来说,写动态规划都是从寻找递推公式开始的。
对于当前这个问题,我们假设有字符串s1和s2,它们的长度分别为n和m,用数组dp记录最长公共子序列的长度(dp[i][j]表示的是s1[:i]和s2[:j]的最长公共子序列的长度。ps:刚刚那个写法是切片,点进我的博客的应该多多少少都了解些python,这种基础语法我就不解释了= =)。
那么dp[i][j]的数值是由谁决定的呢(这里i和j是从1开始的,dp[i][j]=0)?
我们可以想一下,假如s1[i-1]和s2[j-1]是相等的(参考上面一句,这里下标从0开始,所以要-1),那么它们就可以作为公共子序列的一部分,接入到s1[:i]和s2[:j]的最长公共子序列中去。而按照递推来看,dp[i-1][j-1]是我们已经算出来的,所以dp[i][j]=dp[i-1][j-1]+1。
如果s1[i-1]和s2[j-1]不相等呢?如果不相等,那我们就不用考虑dp[i-1][j-1]了,因为不论是dp[i][j-1]还是dp[i-1][j]都一定大于等于它。在s1[i-1]!=s2[j-1]的情况下,dp[i][j]只能从dp[i-1][j]和dp[i][j-1]中选择,我们要的是最长子序列,选择最大的即可。
那么,递推公式可以这么表示:
solo上面的markdown对LaTeX的解析好像有点问题,所以我直接放截图了。
动态规划麻烦就麻烦在递推公式推导方面,推出来之后就好办了,编码而已嘛。