2012年09月_天天向上的金牛

11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Detecting Near-Duplicates for Web Crawling － simhash与重复信息识别

随着信息爆炸时代的来临，互联网上充斥着着大量的近重复信息，有效地识别它们是一个很有意义的课题。例如，对于搜索引擎的爬虫系统来说，收录重复的网页是毫无意义的，只会造成存储和计算资源的浪费；同时，展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可能原因主要包括：镜像网站内容复制嵌入广告计数改变少量修改一个简化的爬虫系统架构如下图所示：事实上，传

2012-09-20 17:16:41 10239 1

转载 simhash算法的原理

simhash算法的原理第一次听说google的simhash算法[1]时，我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值，原理上相当于伪随机数产生算法。传统hash算法产生的两个签名，如果相等，说明原始内容在一定概率下是相等的；如果不相等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产生的签名也很可能差

2012-09-20 17:06:09 5046

转载谷歌如何从网络的大海里捞到针

谷歌如何从网络的大海里捞到针David Austin关键词：谷歌，搜索，随机矩阵，特征值想象一个含有250亿份文件，却没有集中管理机构和馆员的图书馆，而且任何人都可以在任何时间添加新的文件而不需要通知其他人。一方面你可以确定，这庞大的文件堆中有一份文件含有对你至关重要的信息，而另一方面，你又像我们中的大多数人那样没有耐心，想要在几秒钟之内就找到这条信息。你有什

2012-09-17 18:55:08 9503

牛顿迭代法

非线性方程（或方程组）问题可以描述为求 x 使得f(x) = 0。在求解非线性方程的方法中，牛顿迭代法是求非线性方程（非线性方程组）数值解的一种重要的方法。牛顿是微积分创立者之一，微积分理论本质上是立足于对世界的这种认识：很多物理规律在微观上是线性的。近几百年来，这种局部线性化方法取得了辉煌成功，大到行星轨道计算，小到机械部件设计。牛顿迭代法正是将局部线性化的方法用于求解方程。

2012-01-04

Histograms of Oriented Gradients for Human Detection

Histograms of Oriented Gradients for Human Detection，HOG，梯度方向直方图

2011-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人