![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
文章平均质量分 77
hongxing4hao
这个作者很懒,什么都没留下…
展开
-
爬虫技术研究综述
齐保元 1 爬虫技术研究综述 引言 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和 指南。但是,这些通用性搜索引擎也存在着一定的局限性,如: (1) 不同领域、不同背转载 2007-07-17 16:21:00 · 2099 阅读 · 1 评论 -
搜索引擎重复网页发现技术分析
一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页 有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms for Duplicate Document Detec转载 2007-07-25 17:22:00 · 868 阅读 · 0 评论 -
如何才能做好一个垂直搜索引擎
本文先引用几句话: “确解用户之意,切返用户之需。” “门户网站都想着是怎样省钱,而不是怎样花钱来买技术。” “搜索引擎不是人人都能做的领域,进入的门槛比较高。” “只是优秀还不够,最好的方式是将一件事情做到极致。”(google十大真理) “做搜索引擎需要专注” “对于一项排到第四的业务,门户很难做到专注。” “用户无法描述道他要找什么,除非让他看到想找的东西。” “所谓楔形,其实就是个倒三角转载 2007-07-25 17:26:00 · 744 阅读 · 0 评论