pyspider project
创建
-
进入pyspider dashboard,点击
Create
创建project
在
Project Name
中输入项目名称,在Start URL(s)
中输入爬取的起始地址(在之后的描述中将其称为父地址),点击Create
后完成创建
pyspider dashboard编辑界面简介
-
创建完成后
pyspider
会跳转到如下图所示的编辑界面
-
左半边绿色部分显示pyspider正在处理的部分
{ "process": { "callback": "on_start" }, "project": "test", "taskid": "data:,on_start", "url": "data:,on_start" }
process
中callback
表示下一步将要处理的函数,这里on_start
是pyspider的入口函数,之后会对其进行详述
project
表示项目名称,在send_message
和on_message
等函数中会有所涉及
taskid
是project
的唯一标识,在project
运行中起着至关重要的作用
url
就是项目创建时待爬取的url
这一部分在项目调试时会随着处理函数的变化而变化 -
左半边下面区域显示项目的输出信息,产生的新url,html,web,message等信息
-
右边是代码编辑区域,由于在这里编写代码比较麻烦,通常可以在其他代码编辑工具或编译器上处理代码,调试时将其粘贴过来即可,当然还有另一种方式,暂时不做讨论
-
Handler
类- 继承自
BaseHandler
crawl_config
是project
的配置,project
运行时pyspider
会读取其中的参数进行设置on_start
为pyspider
启动时的入口函数crawl
相当于加强版的requests.get()
,可以设置参数method
让其实现get
或post
,callback
为回调函数,接收爬取获得的response
index_page
和detail_page
都作为回调函数处理response
,detail_page
会把处理结果return
给on_result
做输出处理on_finished
函数做最后的收尾工作
- 继承自