NLP文本相似度之LCS

基础

LCS(Longest Common Subsequence)通常指的是最长公共子序列,区别最长公共字串(Longest Common Substring)。我们先从子序列的定义理解:

一个序列S任意删除若干个字符得到新的序列T,则T叫做S的子序列。

子序列和子串的一个很大的不同点是,子序列不要求连接,而子串要求连接。

两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序列,例如:

  • 字符串12455245576的最长公共子序列为2455
  • 字符串acdfgadfc的最长公共子序列为adf

应用

LCS通常可以用来描述两段文字之间的相似度。例如:在辨别抄袭中,对一段文字进行修改后,计算改动前后文字的最长公共子序列,将除此子序列外的部分提取出来,就可以判断文字修改的部分了。

求解

对于求解字符串X,Y的最长公共子序列问题,最容易想到的应该是暴力穷举法。如果假定X,Y的长度分别为m、n,则X共有pow(2,m)个不同的子序列,Y有pow(2,n)个不同的子序列,对X的每一个子序列,检查它是否也是Y的子序列,从而确定它是否为X和Y的公共子序列,并且在检查过程中选出最长的公共子序列。穷举法带来的时间复杂度为 O ( 2 m ∗ 2 n ) O(2^m*2^n)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值