爬虫
lzp158869557
这个作者很懒,什么都没留下…
展开
-
webmagic
1、retrytimes:请求失败后重试的次数,circleretrytimes是循环重试次数,该机制会将下载失败的url重新放入队列尾部重试,直到达到重试次数,以保证不因为某些网络原因漏抓页面,如代理ip不通。 2、标识符spawnUrl:是否添加新的url到schedule。原创 2017-02-16 10:52:33 · 648 阅读 · 0 评论 -
HttpCore和HttpClient
一、HttpCore httpcore实现了一套HTTP 协议的基础组件,为构建客户端/代理/服务器端 HTTP 服务一致的 API。 支持两种I/O模式:BIO和NIO BIO:阻塞型Blocking I/O,通信模型:1:1模型:通常由一个独立的Acceptor线程(服务器)负责监听客户端的连接,它接收到客户端连接请求之后为每个客户端创建一个新的线程进行链路处理 处理完成后,通过输出流...原创 2017-10-11 16:00:08 · 8978 阅读 · 0 评论