HttpClient是一个很方便进行Http连接操作的工具包,用它可以设置代理和模拟浏览器下载网页。而HtmlParser则是一个开源的,可以对HTML进行处理的工具包,可以很方便的对HTML进行解析。
首先定义一个队列。
然后定义MyQueue,用于存放已访问的链接和未访问的链接。
接下来就是用HttpClient下载网页的类。
然后是用HtmlParser解析HTML的类:
最后是一个主函数,就是蜘蛛。
从未访问链接的队列中提取URL,下载其页面,分析其中的链接;并且将本链接放入已访问的链接队列中。
分析出的链接,如果不在已访问链接队列中,那么就放入未访问链接队列中。
反复循环,直至未访问链接队列为空。