文本相似度的那些算法

子序列与子字符串

这个系列问题包含这么几种:最大子序列、最长递增子序列、最长公共子串、最长公共子序列。
几个子问题都可以用动态规划的思路来求解。对于长度为i、j的两个字符串 ,使用m[i][j]矩阵来存放中间结果。

更详细的算法可以看这篇文档:
http://www.cnblogs.com/zhangchaoyang/articles/2012070.html

字符串编辑距离

精确计算两个字符串的编辑距离,可以使用经典的动态规划思路。

这里来看下如何判断字符串A与B的编辑是否>N?这样我们就可以比较两个字符串的相似度了。
可以构建一个编辑距离自动机(超酷算法:Levenshtein自动机),把测试字符集合输入自动机进行判断。

可用于拼写检查,模糊匹配等场景。

向量相似度

使用TF-IDF计算出文本中词的词频集合,把该集合作一个向量,比较不同集合向量在线性空间中的相似度。如:余弦距离、欧氏距离、概率分布距离(K-L距离)等。

更详细的介绍看这篇文档:
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

<
  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值