scrapy实例:爬取中国天气网

最新推荐文章于 2022-12-26 20:56:09 发布

weixin_30606669

最新推荐文章于 2022-12-26 20:56:09 发布

阅读量1.1k

点赞数 3

文章标签： python 爬虫 shell

原文链接：http://www.cnblogs.com/toheart/p/9804565.html

版权

1.创建项目

在你存放项目的目录下,按shift+鼠标右键打开命令行,输入命令创建项目:

PS F:\ScrapyProject> scrapy startproject weather      # weather是项目名称

回车即创建成功

这个命令其实创建了一个文件夹而已,里面包含了框架规定的文件和子文件夹.

我们要做的就是编辑其中的一部分文件即可.

其实scrapy构建爬虫就像填空.这么一想就很简单了

cmd执行命令:

PS F:\ScrapyProject> cd weather   #进入刚刚创建的项目目录
PS F:\ScrapyProject\weather>

进入项目根目录.

你已经创建好了一个scrapy项目.

我想,有必要了解一下scrapy构建的爬虫的爬取过程:

scrapy crawl spidername开始运行，程序自动使用start_urls构造Request并发送请求，然后调用parse函数对其进行解析，在这个解析过程中使用rules中的规则从html（或xml）文本中提取匹配的链接，通过这个链接再次生成Request，如此不断循环，直到返回的文本中再也没有匹配的链接，或调度器中的Request对象用尽，程序才停止。

2.确定爬取目标:

这里选择中国天气网做爬取素材,

所谓工欲善其事必先利其器,爬取网页之前一定要先分析网页,要获取那些信息,怎么获取更加方便.

篇幅有限,网页源代码这里只展示部分:

<div class="ctop clearfix">
            <div class="crumbs fl">
                <a href="http://js.weather.com.cn" target="_blank">江苏</a>
                <span>></span>
                <a href="http://www.weather.com.cn/weather/101190801.shtml" target="_blank">徐州</a><span>></span>  <span>鼓楼</span>
            </div>
            <div class="time fr"></div>
        </div>

可以看到这部分包含城市信息,这是我们需要的信息之一.

接下来继续在页面里找其他需要的信息,例如天气,温度等.

3.填写Items.py

Items.py只用于存放你要获取的字段:

给自己要获取的信息取个名字:

# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy

class WeatherItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    city = scrapy.Field()
    city_addition = scrapy.Field()
    city_addition2 = scrapy.Field()
    weather = scrapy.Field()
    data = scrapy.Field()
    temperatureMax = scrapy.Field()
    temperatureMin = scrapy.Field()
    pass

4.填写spider.py

spider.py顾名思义就是爬虫文件.

在填写spider.py之前,我们先看看如何获取需要的信息

刚才的命令行应该没有关吧,关了也没关系

win+R在打开cmd,键入:

C:\Users\admin>scrapy shell http://www.weather.com.cn/weather1d/101020100.shtml#search  #网址是你要爬取的url

这是scrapy的shell命令,可以在不启动爬虫的情况下，对网站的响应response进行处理调试等

运行结果:

[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x04C42C10>
[s]   item       {}
[s]   request    <GET http://www.weather.com.cn/weather1d/101020100.shtml#search>
[s]   respo

最低0.47元/天解锁文章

weixin_30606669

关注

3
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
scrapy实例:爬取中国天气网

1.创建项目在你存放项目的目录下,按shift+鼠标右键打开命令行,输入命令创建项目:PS F:\ScrapyProject> scrapy startproject weather # weather是项目名称回车即创建成功这个命令其实创建了一个文件夹而已,里面包含了框架规定的文件和子文件夹.我们要做的就是编辑其中的一部分文件即可.其实sc...
复制链接

扫一扫