pyspider_analysis_2

pyspider project创建

  • 进入pyspider dashboard,点击Create创建project
    create

    Project Name中输入项目名称,在Start URL(s)中输入爬取的起始地址(在之后的描述中将其称为父地址),点击Create后完成创建
    create_project

pyspider dashboard编辑界面简介

  • 创建完成后pyspider会跳转到如下图所示的编辑界面
    editor

  • 左半边绿色部分显示pyspider正在处理的部分

    {
      "process": {
          "callback": "on_start"
      },
      "project": "test",
      "taskid": "data:,on_start",
      "url": "data:,on_start"
    }
    

    processcallback表示下一步将要处理的函数,这里on_start是pyspider的入口函数,之后会对其进行详述
    project表示项目名称,在send_messageon_message等函数中会有所涉及
    taskidproject的唯一标识,在project运行中起着至关重要的作用
    url就是项目创建时待爬取的url
    这一部分在项目调试时会随着处理函数的变化而变化

  • 左半边下面区域显示项目的输出信息,产生的新url,html,web,message等信息

  • 右边是代码编辑区域,由于在这里编写代码比较麻烦,通常可以在其他代码编辑工具或编译器上处理代码,调试时将其粘贴过来即可,当然还有另一种方式,暂时不做讨论


  • Handler

    • 继承自BaseHandler
    • crawl_configproject的配置,project运行时pyspider会读取其中的参数进行设置
    • on_startpyspider启动时的入口函数
    • crawl相当于加强版的requests.get(),可以设置参数method让其实现getpostcallback为回调函数,接收爬取获得的response
    • index_pagedetail_page都作为回调函数处理responsedetail_page会把处理结果returnon_result做输出处理
    • on_finished函数做最后的收尾工作
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值