![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
knzeus
风物长宜放眼量
展开
-
[zz]simhash算法的原理
<br />出处: http://www.cnblogs.com/linecong/archive/2010/08/28/simhash.htmlsimhash算法的原理<br />第一次听说google的simhash算法[1]时,我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上 相当于伪随机数产生算法。传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提 供任何信息,因为即使原始内容只相差一个字转载 2011-03-29 16:46:00 · 306 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类
探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类 <br /> 赵 晨婷 , 软件工程师, IBM马 春娥 , 软件工程师, IBM<br />简介: 智能推荐大都基于海量数据的计算和处理,然而我们发现在海量数据上高效的运行协同过滤算法以及其他 推荐策略这样高复杂的算法是有很大的挑战的,在面对解决这个问题的过程中,大家提出了很多减少计算量的方法,而聚类无疑是其中最优的选择之一。 聚类 (Clustering) 是一个数据挖掘的经典问题,它的目的是将数据分为多个簇转载 2011-05-24 20:50:00 · 598 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤
探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤 赵 晨婷 , 软件工程师, IBM马 春娥 , 软件工程师, IBM简介: 本系列的第一篇为读者概要介绍了推荐引擎,下面几篇文章将深入介绍推荐引擎的相关算法,并帮助读者 高效的实现这些算法。 在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的转载 2011-05-24 20:28:00 · 346 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探 <br /> 赵 晨婷 , 软件工程师, IBM马 春娥 , 软件工程师, IBM<br />简介: 随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越 难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用 恰当的关键词描述自己的需求转载 2011-05-24 20:30:00 · 521 阅读 · 2 评论