使用 Scrapy 爬取去哪儿网景区信息_去哪儿网爬取-CSDN博客

本文链接：https://blog.csdn.net/m0_60667010/article/details/136862900

明确目标：明确你想要抓取的目标（编写 items.py）
制作爬虫：制作爬虫开始爬取网页（编写 xxspider.py）
存储内容：设计管道存储爬取内容（编写pipelines.py）

我们以爬取去哪儿网北京景区信息为例，如图所示：

在这里插入图片描述

创建项目

在我们需要新建项目的目录，使用终端命令 scrapy startproject 项目名创建项目，我创建的目录结构如图所示：

在这里插入图片描述

spiders 存放爬虫的文件
items.py 定义数据类型
middleware.py 存放中间件
piplines.py 存放数据的有关操作
settings.py 配置文件
scrapy.cfg 总的控制文件

定义 Item

Item 是保存爬取数据的容器，使用的方法和字典差不多。我们计划提取的信息包括：area（区域）、sight（景点）、level（等级）、price（价格），在 items.py 定义信息，源码如下：

import scrapy

class TicketspiderItem(scrapy.Item):

area = scrapy.Field()

sight = scrapy.Field()

level = scrapy.Field()

price = scrapy.Field()

pass

爬虫实现

在 spiders 目录下使用终端命令 scrapy genspider 文件名要爬取的网址创建爬虫文件，然后对其修改及编写爬取的具体实现，源码如下：

import scrapy

from ticketSpider.items import TicketspiderItem

class QunarSpider(scrapy.Spider):

name = ‘qunar’

allowed_domains = [‘piao.qunar.com’]

start_urls = [‘https://piao.qunar.com/ticket/list.htm?keyword=%E5%8C%97%E4%BA%AC&region=&from=mpl_search_suggest’]

def parse(self, response):

sight_items = response.css(‘#search-list .sight_item’)

for sight_item in sight_items:

item = TicketspiderItem()

item[‘area’] = sight_item.css(‘::attr(data-districts)’).extract_first()

item[‘sight’] = sight_item.css(‘::attr(data-sight-name)’).extract_first()

item[‘level’] = sight_item.css(‘.level::text’).extract_first()

item[‘price’] = sight_item.css(‘.sight_item_price em::text’).extract_first()

yield item

翻页

next_url = response.css(‘.next::attr(href)’).extract_first()

if next_url:

next_url = “https://piao.qunar.com” + next_url

yield scrapy.Request(

next_url,

callback=self.parse

)

简单介绍一下：

name：爬虫名
allowed_domains：允许爬取的域名
atart_urls：爬取网站初始请求的 url（可定义多个）
parse 方法：解析网页的方法
response 参数：请求网页后返回的内容

yield

在上面的代码中我们看到有个 yield，简单说一下，yield 是一个关键字，作用和 return 差不多，差别在于 yield 返回的是一个生成器（在 Python 中，一边循环一边计算的机制，称为生成器），它的作用是：有利于减小服务器资源，在列表中所有数据存入内存，而生成器相当于一种方法而不是具体的信息，占用内存小。

做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。

别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。

我先来介绍一下这些东西怎么用，文末抱走。

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述