HttpClient 模拟火狐

HttpClient是HttpComponents(简称为hc)项目其中的一部份,访问地址:http://hc.apache.org/ HttpClient是一个代码级的Http客户端工具,可以使用它模拟浏览器向Http服务器发送请求。使用HttpClient还需要HttpCore....

2011-11-27 23:01:26

阅读数 20

评论数 0

用HttpClient来模拟浏览器GET POST

一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交 一些数据等等。所访问的这些页面有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前 我们使用的浏览器处理这些情况都不会构成...

2011-03-18 12:56:56

阅读数 10

评论数 0

Eclipse下配置heritrix

一、需求文件     heritrix-1.41.3-src.zip     heritrix-1.14.3.zip     在http://sourceforge.net/project/showfiles.php?group_id=73833&package_...

2011-03-17 15:16:56

阅读数 11

评论数 0

运行heritrix1.14.4报错 thread-10 org.archive.util.ArchiveUtils.() TLD list unavailab

运行heritrix1.14.4报错 thread-10 org.archive.util.ArchiveUtils.<clinit>() TLD list unavailable 最近需要用到heritrix做一个需求,下来研究了一下。 根据网上的...

2011-03-17 15:16:25

阅读数 10

评论数 0

java抓取天气预报数据

这个东西虽然简单,但还是挺好玩的:首先把搜索后的页面用流读取出来,再写个正则,去除不要的内容,再把最后的结果存成xml格式文件、或者直接存入数据库,用的时候再调用 本代码只是显示html也的源码内容,如果需要抽取内容请自行改写public static String regex()中的正则式...

2011-03-17 12:48:38

阅读数 23

评论数 0

网络爬虫浅析

Heritrix项目介绍 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的带宽去站点爬。 主题爬...

2011-03-05 02:33:33

阅读数 9

评论数 0

提示
确定要删除当前文章?
取消 删除