大数据开发 NLP文本相似度(1),腾讯+华为+阿里面试真题分享

本文介绍了NLP中使用TF-IDF算法计算文本相似度,通过最长公共子序列(LCS)来衡量文本的相似度,适用于生物序列比对和抄袭检测。此外,分享了面试准备建议,强调了高级Android工程师所需技能的重要性。
摘要由CSDN通过智能技术生成

应用:

  • 相似文章

• 使用TF-IDF算法,找出两篇文章的关键词;

• 每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合

中的词的词频;

• 生成两篇文章各自的词频向量;

• 计算两个向量的余弦相似度,值越大就表示越相似。

  • 文章摘要

在这里插入图片描述

5.L C S 定 义

• 最长公共子序列(Longest Common Subsequence)

• 一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列

• 两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序

– 字符串12455与245576的最长公共子序列为2455

– 字符串acdfg与adfc的最长公共子序列为adf

• 注意区别最长公共子串(Longest Common Substring)

– 最长公共子串要求连接

L C S 作 用

• 求两个序列中最长的公共子序列算法

– 生物学家常利用该算法进行基因序列比对,以推测序列的结构、功能和演化过程。

• 描述两段文字之间的“相似度”

– 辨别抄袭,对一段文字进行修改之后,计算改动前后文字的最长公共子序列,将除此子序列<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值