![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
hi_software
这个作者很懒,什么都没留下…
展开
-
搜索引擎爬虫的实现
论文:搜索引擎爬虫的实现 转载自:http://www.nowamagic.net/webdesign/webdesign_NetworkCrawler.php万维网是一个通过HTML格式使数十亿的文件产生联系的集合 ,然后如此规模庞大的数据已经成为信息检索的障碍,用户为了查找自己想要的资料可能要翻转数页。网络爬虫是搜索引擎的核心部分,网页爬虫持续不断的在互联网上爬行来寻找任何新的增加转载 2012-06-05 18:06:23 · 3123 阅读 · 0 评论 -
Java网络爬虫的实现
Java网络爬虫的实现 转载自:http://developer.51cto.com/art/201103/248141.htm记得在刚找工作时,隔壁的一位同学在面试时豪言壮语曾实现过网络爬虫,当时的景仰之情犹如滔滔江水连绵不绝。后来,在做图片搜索时,需要大量的测试图片,因此萌生了从Amazon中爬取图书封面图片的想法,从网上也吸取了一些前人的经验,实现了一个简单但足够用的转载 2012-06-05 19:23:31 · 823 阅读 · 0 评论 -
网络爬虫浅析
网络爬虫浅析转载自:http://blog.csdn.net/Zerozaki_Kagamiori/article/details/5614085#在万维网飞速发展的网络背景下,搜索引擎在人们的生活工作中无疑扮演着重要的角色,而网络爬虫则是搜索引擎技术的最基础部分。一、网络爬虫概述在搜索引擎成为主流检索工具的今天,互联网上的网络爬虫各式各样,但爬虫爬取网页的基本步骤大致相同:1转载 2012-06-05 19:36:33 · 2310 阅读 · 1 评论 -
java代码示例(Hashtable)
package learnExample;import java.util.Hashtable;public class Learn { public static void main(String args[]) { Hashtable Learn = new Hashtable(); //String为key,int为value Learn.转载 2012-06-06 09:38:38 · 481 阅读 · 0 评论 -
简单网络爬虫代码示例
//自己写的网络爬虫,希望大家共同探讨交流package Crawl;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStreamReader;import j原创 2012-09-12 19:45:40 · 1239 阅读 · 0 评论 -
网络爬虫-URL去重
转载自:http://hi.baidu.com/shirdrn/blog/item/40ed0fb1ceac4d5c0923029d.html在爬虫启动工作的过程中,我们不希望同一个网页被多次下载,因为重复下载不仅会浪费CPU机时,还会为搜索引擎系统增加负荷。而想要控制这种重复性下载问题,就要考虑下载所依据的超链接,只要能够控制待下载的URL不重复,基本可以解决同一个网页重复下载的问题。非转载 2012-05-28 21:19:52 · 13681 阅读 · 0 评论 -
java的Hashtable
java的Hashtable转载自:http://blog.sina.com.cn/s/blog_6087500e0100ndev.htmlHashtables(哈希表)在计算机领域中已不是一个新概念了。它们是用来加快计算机的处理速度的,用当今的标准来处理,速度非常慢,而它们可以让你在查询许多数据条目时,很快地找到一个特殊的条目。尽管现代的机器速度已快了几千倍,但是为了得到应用程序的最佳性转载 2012-06-06 09:14:49 · 417 阅读 · 0 评论