GuozhongCrawler系列教程 (3) PageProcessor详解

       PageProcessor是所有PageRequest请求完成后处理的接口。 例如:startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/425984",OschinaProcessor.class)即可指定处理页面结果 此时重写OschinaProcessor.process方法即可完成解析工作


方法详细资料

  • getJavaScript
    PageScript getJavaScript()

    如果这个页面需要动态交互JS,定义一个PageScript返回

    • 返回:


  • getNormalContain
    java.util.regex.Pattern getNormalContain()

    当启动代理Ip访问时需要重写此方法,返回正常网页应该带有的字符串标识。比如www.baidu.com带有“百度”

    • 返回:


  • process
    void process(OkPage page,           StartContext context,
               java.util.List<BasicRequest> queue,
               java.util.List<Proccessable> objectContainer)
                 throws java.lang.Exception

    处理一个页面

    • 参数:

    • page - 下载完成的网页

    • context - 当前所有入口的上下文对象

    • queue - 加入跟进Request的List容器,处理完成后queue的所有Request会被推送到抓取队列中

    • 抛出:

    • java.lang.Exception

  • processErrorPage
    void processErrorPage(Page page,                    StartContext context)
                          throws java.lang.Exception

    处理错误页面

    • 参数:

    • page -

    • context -

    • 抛出:

    • java.lang.Exception


转载于:https://my.oschina.net/u/1377701/blog/464272

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值