数据挖掘
文章平均质量分 90
iteye_2655
这个作者很懒,什么都没留下…
展开
-
ZZ 数据挖掘的方法论之谈CRISP-DM
from:http://kb.cnblogs.com/page/76804/在1996年,当时数据挖掘市场是年轻而不成熟的,但是这个市场显示了爆炸式的增长。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团,目的建立数据挖掘方法和过程的标准。在获得了EC(European Commission)的资助后,他们开始实现他们的目标。为了征集业界广泛的意...原创 2012-05-26 15:45:24 · 118 阅读 · 0 评论 -
ZZ 基于用户投票的排名算法
from: http://kb.cnblogs.com/page/135656/ 基于用户投票的排名算法(一):Delicious和Hacker News 基于用户投票的排名算法(二):Reddit 基于用户投票的排名算法(三):Stack Overflow 基于用户投票的排名算法(四):牛顿冷却定律 基于用户投票的排名算法(五):威尔逊区间 基于用户投票的排名算...原创 2012-06-11 09:59:37 · 239 阅读 · 0 评论 -
ZZ Hamming distance
Hamming distance n information theory, the Hamming distance, named after Richard Hamming, is the number of positions in two strings of equal length for which the corresponding elements are diff...原创 2012-06-27 10:54:59 · 127 阅读 · 0 评论 -
ZZ 什么是Shingling算法 网页去重——Shingling 算法
什么是Shingling算法 网页去重——Shingling 算法 shingling算法用于计算两个文档的相似度,例如,用于网页去重。维基百科对w-shingling的定义如下: In natural language processing a w-shingling is a set of unique "shingles"—contiguous subsequence...原创 2012-06-27 12:04:01 · 281 阅读 · 0 评论 -
ZZ I-Match算法 网页去重-算法篇
I-Match算法 网页去重-算法篇 网页去重-算法篇 前一篇(网页去重-比较文本的相似度-Near duplication detection )提到了5个解决网页去重的算法,这里我想讨论下这些算法1. I-Match 2. Shingliing3. SimHashing( locality sensitive hash) 4. Random Projection5. ...原创 2012-06-27 12:08:21 · 539 阅读 · 0 评论 -
ZZ 自动分类、相似度、去重等相关问题原理和算法
Google的吴军研究员写了数学之美系列,其中有“余弦定律与新闻的分类”和”矩阵运算和文本处理中的分类问题“对自动分类、相似度、去重等相关问题原理作了介绍,并找到一些相关算法:余弦定律与新闻的分类Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一...原创 2012-06-27 14:04:52 · 251 阅读 · 0 评论