网络爬虫Scrapy

最新推荐文章于 2024-09-05 20:15:59 发布

弗里曼的小伙伴

最新推荐文章于 2024-09-05 20:15:59 发布

阅读量756

点赞数

分类专栏： PYTHON 文章标签： python 开发

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sf2gis2/article/details/46293329

版权

PYTHON 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

网络爬虫Scrapy

sf2gis@163.com

2015年4月28日

1 目标：批量下载网页内容

2 原理：发送get，接受Response，然后提取信息。

3 方法: scrapy

参考：http://blog.pluskid.org/?p=366

3.1 安装

请参考官网：https://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html。

3.1.1安装scrapy

python,pip,setuptools,lxml,openSSL。

3.1.2Windows（win7）补充安装：

1) 安装service_identify:pip service_identity

2) 安装pywin32: https://pypi.python.org/pypi/pywin32下载对应python版本的程序。

3.2 使用

3.2.1创建下载项目

scrapy startproject tutorial

3.2.2创建下载规则（Spider爬虫）

3.2.2.1 创建scrapy.Spider的子类作为爬虫：在Spiders下创建新Spider类。

设置爬虫名称：Spider.name

设置下载地址列表：Spider.starturls

下载数据的组织：Spider.parse()

在parse（）中要将response的数据进行分解，可以使用selector选择其中的数据。将数据组织与items.py中的数据Items格式，并返回。结果将保存在指定的-o文件中。

3.2.2.2 创建数据组织类：修改items.py，创建组织结构（类）

创建scrapy.Field（）类型的数据成员。

3.2.3开始下载：scrapy crawl dmoz

3.2.4开始下载并保存数据：scrapy crawl dmoz -oitems.json

3.3 调试方法:IPython的scrapy shell交互式调试

在程序中每次的response返回后进行调试。

scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"

3.4 示例

//spidesrs/dmoz_spider.py

import scrapy

from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):

    name = "dmoz"

    allowed_domains = ["dmoz.org"]

    start_urls = [

        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

    def parse(self, response):

        filename = response.url.split('/')[-2]

        with open(filename,'wb') as f:

            f.write(response.body)

        for sel in response.xpath("//ul/li"):

            item = DmozItem()

            item['title'] = sel.xpath("a/text()").extract()

            item['link'] = sel .xpath("a/@href").extract()

            item['desc'] = sel.xpath("text()").extract()

            yield item

//items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class TutorialItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    pass

class DmozItem(scrapy.Item):

    title = scrapy.Field()

    link = scrapy.Field()

    desc = scrapy.Field()

弗里曼的小伙伴

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
网络爬虫Scrapy

网络爬虫Scrapysf2gis@163.com2015年4月28日 1 目标：批量下载网页内容2 原理：发送get，接受Response，然后提取信息。3 方法: scrapy参考：http://blog.pluskid.org/?p=3663.1 安装请参考官网：https://scrapy-chs.readthedocs.org/zh_CN/0.24
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

弗里曼的小伙伴 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。