自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云聪的技术错题集

基础的扎实程度直接决定高度

  • 博客(6)
  • 问答 (4)
  • 收藏
  • 关注

原创 HashSet中消失的元素和多出来的元素

首先给出一个辅助类:package disappearElementInHashset;public class Person { private String name; public Person(String name) { super(); this.name = name; } public String getName() { return name;

2015-11-20 23:16:57 797

原创 Heritrix3.3.0源码阅读 动态加载种子

Heritrix3.3.0有一个很实用的功能,就是在抓取开始之后,依然可以通过在指定目录里放入种子文件的方式向爬虫添加新的种子。接下来,我们就来看看这个功能是怎样实现的。这个功能是在org.archive.crawler.framework包下的ActionDirectory类实现的,这个类去掉内容后是这个样子的:public class ActionDirectory implement

2015-11-18 16:38:23 1039

原创 Heritrix3.3.0源码阅读 种子模块(观察者模式实践)

种子模块从外部加载种子,并把种子发布给所有需要种子的对象。我们将会看到,这个模块是以观察者模式的形式实现的。本文不会讲到种子的具体加载过程,也不会讲到种子的消费过程,而只会讲种子模块本身,也就是该模块各个类的具体实现及组织方式。让我们开始吧。“种子模块”是该模块一个抽象类的名称,其它具体类都必须继承它。该类源码如下:package org.archive.modules.seeds;i

2015-11-18 13:13:29 957

原创 Heritrix3.3.0源码阅读 URI过滤规则

在Heritrix3.3.0源码阅读 crawler-beans.cxml中URI过滤规则的配置中,我们看到了Heritrix3.3.0配置的用于决定URI是否被接受的类。而本文的目的是,通过阅读源码,了解(1)一个URI处理类是怎样工作的(2)一系列URI处理类是如何配合工作的。首先,我们来解决第一个问题。(一)所有URI处理类都必须继承DecideRule抽象类:

2015-11-16 15:59:35 1593 8

原创 Heritrix3.3.0-环境搭建(maven项目)

Heritrix3.3.0是maven项目,但是当我们把它导入eclipse里后,总是有一些jar包不能下载下来,导致项目无法正常。网上有介绍把它改为普通java项目并利用发布版lib目录下的jar包作为依赖使之正常工作的文章——heritrix 3.2.0 -- 环境搭建 。但是,这样的话,我们就没法方便的阅读项目的测试类代码以及相关项目的源码了。考虑到这个原因,便决定花点功夫解决jar不能

2015-11-09 13:15:21 3663 2

原创 Heritrix3.3.0源码阅读 crawler-beans.cxml中URI过滤规则的配置

<!-- SCOPE: rules for which discovered URIs to crawl; order is very important because last decision returned other than 'NONE' wins. --> --> -->

2015-11-09 12:43:36 1428 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除