初识scrapy框架,美空图片爬虫实战

本文介绍了如何利用scrapy创建一个项目,定义Item来存储爬取的网页元素,如图片URL,并实现Spider来抓取指定URL,通过Item Pipeline进行数据存储。在items.py中定义了MokoItem类,包含url字段。接着在mokospider.py中创建Spider,指定了name、start_urls,并实现了parse方法用于解析和跟踪更多URL。
摘要由CSDN通过智能技术生成
      这俩天研究了下scrapy爬虫框架,遂准备写个爬虫练练手。平时做的较多的事情是浏览图片,对,没错,就是那种艺术照,我骄傲的认为,多看美照一定能提高审美,并且成为一个优雅的程序员。O(∩_∩)O~ 开个玩笑,那么废话不多说,切入正题吧,写一个图片爬虫。
       设计思路:爬取目标为美空网模特照片,利用CrawlSpider提取每张照片的url地址,并将提取的图片url写入一个静态html文本作为存储,打开即可查看图片。 我的环境是win8.1, python2.7+Scrapy 0.24.4,如何配环境我就不说了,大家自行百度一下。
       参照官方文档,我总结了建立爬虫程序大致有四个步骤:
  • 创建一个scrapy project
  • 定义需要从网页中提取的元素item
  • 实现一个spider类,通过接口完成爬取url和提取item的功能
  • 实现一个item pipeline类,完成Item的存储功能。
        接下来就很简单了,参照着步骤一步步做就好,首先在终端里面建立一个项目,项目名咱就命名为moko吧。输入指令scrapy startproject moko, scrapy会在当前目录创建一个moko的文件目录,里面有一些初使的文件,文件用处大伙感兴趣查下文档,我主要介绍我们这次用到的文件。
  • 定义Item  在items.py里面定义我们要抓取的数据:
  • # -*- coding: utf-8 -*-

    # Define here the models for your scraped items
    #
    # See documentation in:
    # http://doc.scrapy.org/en/latest/topics/items.html

    import scrapy


    class MokoItem(scrapy.Item):
        # define the fields for your item h
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值