应用:
- 相似文章
• 使用TF-IDF算法,找出两篇文章的关键词;
• 每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合
中的词的词频;
• 生成两篇文章各自的词频向量;
• 计算两个向量的余弦相似度,值越大就表示越相似。
- 文章摘要
5.L C S 定 义
• 最长公共子序列(Longest Common Subsequence)
• 一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列
• 两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序
列
– 字符串12455与245576的最长公共子序列为2455
– 字符串acdfg与adfc的最长公共子序列为adf
• 注意区别最长公共子串(Longest Common Substring)
– 最长公共子串要求连接
L C S 作 用
• 求两个序列中最长的公共子序列算法
– 生物学家常利用该算法进行基因序列比对,以推测序列的结构、功能和演化过程。
• 描述两段文字之间的“相似度”
– 辨别抄袭,对一段文字进行修改之后,计算改动前后文字的最长公共子序列,将除此子序列<