大数据开发 NLP文本相似度,Android程序员必经的实践之路

• 计算两个向量的余弦相似度,值越大就表示越相似。

  • 文章摘要

在这里插入图片描述

5.L C S 定 义

• 最长公共子序列(Longest Common Subsequence)

• 一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列

• 两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序

– 字符串12455与245576的最长公共子序列为2455

– 字符串acdfg与adfc的最长公共子序列为adf

• 注意区别最长公共子串(Longest Common Substring)

– 最长公共子串要求连接

L C S 作 用

• 求两个序列中最长的公共子序列算法

– 生物学家常利用该算法进行基因序列比对,以推测序列的结构、功能和演化过程。

• 描述两段文字之间的“相似度”

– 辨别抄袭,对一段文字进行修改之后,计算改动前后文字的最长公共子序列,将除此子序列

外的部分提取出来,该方法判断修改的部分

求 解 — — 暴力穷举法

• 假定字符串X,Y的长度分别为m,n;

• X的一个子序列即下标序列{1,2,……,m}严格递增子序列,因此,X共有2

m个

不同

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值