创建爬虫
这里可以配置爬虫的基本信息。
爬虫的抽取逻辑PageProcessor
采用模板化的思想,编写一个Java文件之后,提供一些属性注入点,程序会自动根据注入点,产生表单。
管理爬虫
这里可以查看爬虫运行状态,并对爬虫进行管理。
worker是正在运行的机器。
爬虫状态包括总共url,下载页面数,失败数等。失败数可以点击查看详细结果及异常。
这里可以配置爬虫的基本信息。
爬虫的抽取逻辑PageProcessor
采用模板化的思想,编写一个Java文件之后,提供一些属性注入点,程序会自动根据注入点,产生表单。
这里可以查看爬虫运行状态,并对爬虫进行管理。
worker是正在运行的机器。
爬虫状态包括总共url,下载页面数,失败数等。失败数可以点击查看详细结果及异常。
转载于:https://my.oschina.net/flashsword/blog/202889