扩展和定制Heritrix之Extractor


转至:http://www.07net01.com/zhishi/474980.html

10.3 扩展和定制Heritrix

在前面两节中,向读者介绍了Heritrix的启动、创建任务、抓取网页、组件结构。但是,读者应该也可以明显的看出,如果不用Heritrix抓取和分析网页的行为进行一定的控制,它是无法达到要求的。

对Heritrix的行为进行控制,是要建立在对其架构充分了解的基础之上的,因此,本节的内容完全是基于上一节中所讨论的基础。

10.3.1 向Heritrix中添加自己的Extractor

很明显,Heritrix内嵌的 Extractor并不能够很好的完成所需要的工作,这不是说它不够强大,而是因为在解析一个网页时,常常有特定的需要。比如,可能只想抓取某种格式的链 接,或是抓取某一特定格式中的文本片断。Heritrix所提供的大众化的Extractor只能够将所有信息全部抓取下来。在这种情况下,就无法控制 Heritrix到底该抓哪些内容,不该抓哪些内容,进而造成镜象信息太复杂,不好建立索引。

以下就使用一个实例,来讲解该如何定制和使用Extractor。这个实例其实很简单,主要功能就是抓取所有在Sohu的新闻主页上出现的新闻,并且URL格式如下所示。

http://news.sohu.com/20061122/n246553333.shtml

(1)分析一下这个URL可以知道,其中的主机部分是http://news.sohu.com,这是搜狐新闻的域名,“20061122”应该表示的是新闻的日期,而最后的“n246553333.shtml”应该是一个新闻的编号,该编号全部以“n”打头。

(2)有了这样的分析,就可以根据URL的特点,来定出一个正则表达式,凡是当链接符合该正则表达式,就认为它是一个潜在的值得抓取的链接,将其收藏,以待抓取。正则表达式如下:

http://news.sohu.com/[\\d]+/n[\\d]+.shtml

(3)事实上所有的Extractor均继承自org.archive.crawler.extractor.Extractor这个抽象基类,在它的内部实现了innerProcess方法,以下便是innerProcess的实现:

代码10.10

public void innerProcess(CrawlURI curi) {

try {

/*

* 处理链接

*/

extract(curi);

} catch (NullPointerException npe) {

curi.addAnnotation("err=" + npe.getClass().getName());

curi.addLocalizedError(getName(), npe, "");

logger.log(Level.WARNING, getName() + ": NullPointerException", npe);

} catch (StackOverflowError soe) {

curi.addAnnotation("err=" + soe.getClass().getName());

curi.addLocalizedError(getName(), soe, "");

logger.log(Level.WARNING, getName() + ": StackOverflowError", soe);

} catch (Java.nio.charset.CoderMalfunctionError cme) {

curi.addAnnotation("err=" + cme.getClass().getName());

curi.addLocalizedError(getName(), cme, "");

logger.log(Level.WARNING, getName() + ": CoderMalfunctionError", cme);

}

}

这个方法中,大部分代码都用于处理在解析过程中 发生的各种异常和日志写入,不过,它为所有的Extractor定义了新的一个接口extract(CrawlURI),也就是说,所有的 Extractor继承自它后,只需实现extract方法就可以了。以下是扩展Extractor时要做的几件事:

(1)写一个类,继承Extractor的基类。

(2)在构造函数中,调用父类的构造函数,以形成完整的家族对象。

(3)继承extract(curi)方法。

为了实现抓取news.sohu.com首页上所有新闻的链接,所开发的Extractor的完整源代码如下所示。

代码10.11

package org.archive.crawler.extractor;

import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.commons.httpclient.URIException;
import org.archive.crawler.datamodel.CrawlURI;
import org.archive.io.ReplayCharSequence;
import org.archive.util.HttpRecorder;

/**
 * 抽取符合条件的url链接放入队列中
 * @author ruanjun
 *
 */
public class ExtractorStock extends Extractor {

    /**
     *
     */
    private static final long serialVersionUID = 4662407160135997584L;
    
    /**
     * 无参构造函数
     * @param name
     */
    public ExtractorStock(String name) {
        super(name, "stock news extractor");
    }

    /**
     * 构造函数
     * @param name
     * @param description
     */
    public ExtractorStock(String name, String description) {
        super(name, description);
    }

//    <a href="http://finance.stockstar.com/SS2017070200000214.shtml">
    
    // 第一个正则式,用于匹配新闻的格式
    public static final String PATTERN_STOCK_NEWS = "http://finance.stockstar.com/SS(.*)+.shtml";
    // 第二个正则式,用于匹配所有的<a href="http://finance.stockstar.com/SS*.shtml">
    public static final String PATTERN_A_LINK ="<a(.*)href\\s*=\\s*(\"([^\"]*)\"|\'([^\']*)\'|[^\\s])(.*)>";
//    public static final String PATTERN_A_LINK ="<a(.*)href\\s*=\\s*(\"([^\"]*)\"|[^\\s])(.*)>";
    
    /**
     *  @param context 页面的内容
     */
    @Override
    protected void extract(CrawlURI curi) {
        String url = "";
        try {
            //获取HttpRecorder
            HttpRecorder hr = curi.getHttpRecorder();
            if (hr == null) {
                throw new IOException("HttpRecorder is null");
            }
            ReplayCharSequence cs = hr.getReplayCharSequence();
            if (cs == null) {
                return ;
            }
            String context = cs.toString();
            //匹配url
            Pattern pattern = Pattern.compile(PATTERN_A_LINK, Pattern.CASE_INSENSITIVE);
            Matcher matcher = pattern.matcher(context);
            while (matcher.find()) {
                url = matcher.group(2);
                //如果url中有双引号替换掉
                url = url.replace("\"", "");
                //如果url中有单引号替换掉
                url = url.replace("\'", "");
//                System.out.println(url);
                if (url.matches(PATTERN_STOCK_NEWS)) {
                    System.out.println(url);
                    curi.createAndAddLinkRelativeToBase(url, context, Link.NAVLINK_HOP);
                }
            }
        } catch (URIException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }


}

在上面代码的extract()方法中:

(1)首先是将Fetcher所获得的链接的HTML响应取得,并转成字符串,这样,才有可能在后面对页面中的链接做处理。

(2)从页面内容中,使用正则式取出所有链接的内容。判断链接是否符合Sohu的新闻格式,倘若符合,则调用addLinkFromString()方法,来将这个链接加入到某个队列缓存中,以备后续的处理。

在Extractor类开发完毕后,如果使用WebUI的方式启动Heritrix,并让它出现在下拉选项中,则需要修改Eclipse工程中的modules目录下的Processor.options文件,如图10-55所示。

图10-55 修改Processor.options文件

打开Processor.options文件可以看到,所有在WebUI中设置处理器链时,页面上的下拉列表中的数据都保存在了其中,为了加入我们开发的SohuNewsExtractor,只需在其中合适的位置上加入一行,内容如下所示:

org.archive.crawler.extractor.ExtractorStock|ExtractorStock

接下来,再次启动Heritrix,创建一个任务,进入处理器链设置的页面,就可以看到自己开发的Extractor了,如图10-56所示。

图10-56 新加入的Extractor已经在下拉菜单中显示出来

选择后,单击“Add”按钮,就可以将其加入到队列中,如图10-57所示。

图10-57 已经加入到处理器队列中

需要注意的是,一定要将其置于 ExtractorHTTP的后面,以保证Heritrix能够先行处理HTTP协议中的相关内容。与加入自己定制的Extractor的过程类似,开发 者们也可以定制其他几种处理器。同样,只需要在modules目录下找到相应的.options文件,然后将类全名加入即可。


转载于:https://my.oschina.net/ruanjun/blog/1547296

weixin073智慧旅游平台开发微信小程序+ssm后端毕业源码案例设计 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
python017基于Python贫困生资助管理系统带vue前后端分离毕业源码案例设计 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值