java网络爬虫
IT独白者
这个作者很懒,什么都没留下…
展开
-
Java 简单的BFS爬虫
大致意思就是先给定一个URL,然后用HttpParser开源工具提取其网页上的链接,并丢到队列里,然后取队列的首URL重复此操作。 需要用到HttpClient和HttpParser包。 这里先给出所有.Java文件的源码。 其中还有些问题,今天不想看了,所有问题明天再说。 今天做了些修改,还是不能保存到文件,但是应该没有其他的问题了,主要修改了运用Queue来操作,还有修转载 2016-05-03 10:01:41 · 578 阅读 · 0 评论 -
HttpClient抓取网页内容简单介绍
下面说的都是HttpClient3.1版本的时候,然后再说HttpClient 4 版本 1、GET方式 第一步、创建一个客户端,类似于你用浏览器打开一个网页 HttpClient httpClient = new HttpClient(); 第二步、创建一个GET方法,用来获取到你需要抓取的网页URL GetMethod getMethod = new GetMet转载 2016-05-03 10:02:30 · 662 阅读 · 0 评论