- 博客(3)
- 资源 (2)
- 收藏
- 关注
转载 Detecting Near-Duplicates for Web Crawling - simhash与重复信息识别
随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费;同时,展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可能原因主要包括: 镜像网站内容复制嵌入广告计数改变少量修改一个简化的爬虫系统架构如下图所示: 事实上,传
2012-09-20 17:16:41 10239 1
转载 simhash算法的原理
simhash算法的原理第一次听说google的simhash算法[1]时,我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差
2012-09-20 17:06:09 5046
转载 谷歌如何从网络的大海里捞到针
谷歌如何从网络的大海里捞到针David Austin关键词: 谷歌,搜索,随机矩阵,特征值想象一个含有250亿份文件,却没有集中管理机构和馆员的图书馆,而且任何人都可以在任何时间添加新的文件而不需要通知其他人。一方面你可以确定,这庞大的文件堆中有一份文件含有对你至关重要的信息,而另一方面,你又像我们中的大多数人那样没有耐心,想要在几秒钟之内就找到这条信息。你有什
2012-09-17 18:55:08 9503
牛顿迭代法
2012-01-04
Histograms of Oriented Gradients for Human Detection
2011-12-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人