常用算法
整理常用的算法
笑里笑外~
生死疲劳由贪欲起,少欲无为,身心自在。
展开
-
相似度算法——SimHash算法(附带:python和java实现)
SimHash算法文章目录SimHash算法概述一、实现思路二、实现流程图三、代码实现python版——jieba分词Java 版——ansj分词概述SimHash算法来自于 GoogleMoses Charikar发表的一篇论文“detecting near-duplicates for web crawling” ,其主要思想是降维, 将高维的特征向量映射成低维的特征向量,通过两个向量的Hamming Distance(汉明距离)来确定文章是否重复或者高度近似。Hamming Di原创 2020-11-18 22:07:21 · 7778 阅读 · 1 评论 -
相似度算法——余弦相似度(附带Java现实)
余弦相似度文章目录余弦相似度概述一、实现思路二、实现流程三、代码实现总结概述 用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。一、实现思路分词:对需要比较的文本进行分词,获得词和词频(key/num)。统计:统计所有的词(去重),作为向量的维度。构建:以词作为维度,词频作为当前维度的值,构建向量。没有的以0填充。计算:二、实现流程举个简单的例子原创 2020-11-18 21:57:37 · 3931 阅读 · 1 评论