![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spider
文章平均质量分 86
luxiangxing
这个作者很懒,什么都没留下…
展开
-
网络爬虫浅析
Heritrix项目介绍Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的带宽去站点爬。 主题爬虫:集中于被选择的问题。 持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。 实验...原创 2011-03-05 02:33:33 · 230 阅读 · 0 评论 -
java抓取天气预报数据
这个东西虽然简单,但还是挺好玩的:首先把搜索后的页面用流读取出来,再写个正则,去除不要的内容,再把最后的结果存成xml格式文件、或者直接存入数据库,用的时候再调用本代码只是显示html也的源码内容,如果需要抽取内容请自行改写public static String regex()中的正则式Java代码 package rssTest; ...原创 2011-03-17 12:48:38 · 214 阅读 · 0 评论 -
运行heritrix1.14.4报错 thread-10 org.archive.util.ArchiveUtils.() TLD list unavailab
运行heritrix1.14.4报错 thread-10 org.archive.util.ArchiveUtils.<clinit>() TLD list unavailable最近需要用到heritrix做一个需求,下来研究了一下。根据网上的文章在eclipse中启动报了下面的错误10:02:59.968 EVENT Starting Jetty/4.2.2310...原创 2011-03-17 15:16:25 · 250 阅读 · 0 评论 -
Eclipse下配置heritrix
一、需求文件 heritrix-1.41.3-src.zip heritrix-1.14.3.zip 在http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980可以下载二、准备 把下载的两个文件分别解压到不同的目录中三、在eclipse中新建一...原创 2011-03-17 15:16:56 · 52 阅读 · 0 评论 -
用HttpClient来模拟浏览器GET POST
一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等。所访问的这些页面有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前我们使用的浏览器处理这些情况都不会构成问题。不过你可能在某些时候需要通过程序来访问这样的一些页面,比如从别人的网页中“偷”一些数据;利用某些...原创 2011-03-18 12:56:56 · 57 阅读 · 0 评论 -
HttpClient 模拟火狐
HttpClient是HttpComponents(简称为hc)项目其中的一部份,访问地址:http://hc.apache.org/HttpClient是一个代码级的Http客户端工具,可以使用它模拟浏览器向Http服务器发送请求。使用HttpClient还需要HttpCore.后者包括Http请求与Http响应的代码封装。Hello WorldJava代码 ...原创 2011-11-27 23:01:26 · 130 阅读 · 0 评论