- 博客(6)
- 问答 (4)
- 收藏
- 关注
原创 HashSet中消失的元素和多出来的元素
首先给出一个辅助类:package disappearElementInHashset;public class Person { private String name; public Person(String name) { super(); this.name = name; } public String getName() { return name;
2015-11-20 23:16:57 797
原创 Heritrix3.3.0源码阅读 动态加载种子
Heritrix3.3.0有一个很实用的功能,就是在抓取开始之后,依然可以通过在指定目录里放入种子文件的方式向爬虫添加新的种子。接下来,我们就来看看这个功能是怎样实现的。这个功能是在org.archive.crawler.framework包下的ActionDirectory类实现的,这个类去掉内容后是这个样子的:public class ActionDirectory implement
2015-11-18 16:38:23 1039
原创 Heritrix3.3.0源码阅读 种子模块(观察者模式实践)
种子模块从外部加载种子,并把种子发布给所有需要种子的对象。我们将会看到,这个模块是以观察者模式的形式实现的。本文不会讲到种子的具体加载过程,也不会讲到种子的消费过程,而只会讲种子模块本身,也就是该模块各个类的具体实现及组织方式。让我们开始吧。“种子模块”是该模块一个抽象类的名称,其它具体类都必须继承它。该类源码如下:package org.archive.modules.seeds;i
2015-11-18 13:13:29 957
原创 Heritrix3.3.0源码阅读 URI过滤规则
在Heritrix3.3.0源码阅读 crawler-beans.cxml中URI过滤规则的配置中,我们看到了Heritrix3.3.0配置的用于决定URI是否被接受的类。而本文的目的是,通过阅读源码,了解(1)一个URI处理类是怎样工作的(2)一系列URI处理类是如何配合工作的。首先,我们来解决第一个问题。(一)所有URI处理类都必须继承DecideRule抽象类:
2015-11-16 15:59:35 1593 8
原创 Heritrix3.3.0-环境搭建(maven项目)
Heritrix3.3.0是maven项目,但是当我们把它导入eclipse里后,总是有一些jar包不能下载下来,导致项目无法正常。网上有介绍把它改为普通java项目并利用发布版lib目录下的jar包作为依赖使之正常工作的文章——heritrix 3.2.0 -- 环境搭建 。但是,这样的话,我们就没法方便的阅读项目的测试类代码以及相关项目的源码了。考虑到这个原因,便决定花点功夫解决jar不能
2015-11-09 13:15:21 3663 2
原创 Heritrix3.3.0源码阅读 crawler-beans.cxml中URI过滤规则的配置
<!-- SCOPE: rules for which discovered URIs to crawl; order is very important because last decision returned other than 'NONE' wins. --> --> -->
2015-11-09 12:43:36 1428 2
空空如也
request.getRemoteAddr()获得的ip与实际本地ip不一致
2016-06-21
导入sun.security.tools.KeyTool;报错,提示不能找不到
2016-01-04
Spark没报错,但是停在某一个地方不动了
2015-08-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人