数据挖掘
卅千万
怕什么真理无穷,进一寸有一寸的欢喜。
展开
-
NLP 文本相似度(一)
生活中事物之间的比较,通常采用一个量化的衡量标准。衡量是一种比较,比较就需要比较的维度,两份文本之间如何比较相似度?我们先从一份文本说起。文本从结构划分:包含字、词、句、段、篇;从规则划分:包含词法规则、语法规则等;从上下文理解:不同的字、词在不同的语境(上下文)中又含有不同的语义…两份文本之间的比较,似乎很难。IF-IDF 是一种很有效的文本相似度比较算法。...原创 2019-04-16 17:48:18 · 919 阅读 · 0 评论 -
NLP文本相似度之LCS
基础LCS(Longest Common Subsequence)通常指的是最长公共子序列,区别最长公共字串(Longest Common Substring)。我们先从子序列的定义理解:一个序列S任意删除若干个字符得到新的序列T,则T叫做S的子序列。子序列和子串的一个很大的不同点是,子序列不要求连接,而子串要求连接。两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共...原创 2019-04-17 12:30:55 · 1488 阅读 · 0 评论