搜索引擎
文章平均质量分 74
tonglanli
这个作者很懒,什么都没留下…
展开
-
爬虫程序
另类搜索资料的方法:网络爬虫程序大家比较熟悉使用各种搜索引擎,但是,还有一种更主动和专门的搜索技术:网络爬虫。1 爬虫技术研究综述 引言 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网转载 2010-01-27 16:26:00 · 688 阅读 · 0 评论 -
爬虫抓取策略介绍
Google去年在其官方博客声称已经发现了一万亿的独立URL,面对如此庞大的Web,,分布式的增量爬虫系统是相当的复杂。Google爬虫为了节省带宽,采用了Crawl Caching Proxy(缓存代理),避免Google多种爬虫(GoogleBot,GoogleBlogsearchBot,GoogleNews Bot等等)重复爬取同一页面。现在网上复制内容或者同一内容不同表现形式导原创 2010-01-28 10:44:00 · 1446 阅读 · 0 评论