![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Java开发
wang23109203
这个作者很懒,什么都没留下…
展开
-
读webmagic笔记
这里来记录一下scheduler模块 介绍这个模块之前先要介绍一下scheduler.component模块 DuplicateRemover是接口,接口函数有 public boolean isDuplicate(Request request, Task task);和public void resetDuplicateCheck(Task task);以及public int getT原创 2014-11-30 19:24:44 · 1564 阅读 · 0 评论 -
webmagic 学习笔记
今天要学习一下webmagic中的pipeline模块。 首先是有一个接口: interface Pipeline 接口中提供了一个方法: public void process(ResultItems resultItems, Task task);处理resultitem中存取的结果。同时还有一个接口: interface CollectorPipeline extends Pipeli原创 2014-12-01 09:24:47 · 1228 阅读 · 0 评论 -
webmagic学习笔记
今天来看看页面出来的过程 在class Spider中有run函数,调用了 processRequest(requestFinal)完成对页面的下载和处理。在这个函数里面先调用downloader.download(request, this);完成页面的下载, pageProcessor.process(page);完成对页面的处理过程,随后可以进行抽取结果的持久的过程。爬虫下载页面以及后原创 2014-12-02 09:06:29 · 1041 阅读 · 0 评论 -
深入剖析tomcat读书笔记——连接器
最近阅读了深入剖析tomcat 这本书,顺便做读书笔记方便自己日后复习,同时也可以供他人参考。以下内容是第三章的内容,主要讲述简化了连接器: 这里主要涉及到以下几个类 HttpConnector 负责创建一个服务器套接字,套接字会等待传入的Http请求 HttpProcessor 负责生产HttpRequest和HttpResponseHt原创 2016-04-19 10:56:54 · 479 阅读 · 0 评论