1.创建项目
在你存放项目的目录下,按shift+鼠标右键打开命令行,输入命令创建项目:
回车即创建成功
这个命令其实创建了一个文件夹而已,里面包含了框架规定的文件和子文件夹.
我们要做的就是编辑其中的一部分文件即可.
其实scrapy构建爬虫就像填空.这么一想就很简单了
cmd执行命令:
进入项目根目录.
你已经创建好了一个scrapy项目.
我想,有必要了解一下scrapy构建的爬虫的爬取过程:
scrapy crawl spidername开始运行,程序自动使用start_urls构造Request并发送请求,然后调用parse函数对其进行解析,在这个解析过程中使用rules中的规则从html(或xml)文本中提取匹配的链接,通过这个链接再次生成Request,如此不断循环,直到返回的文本中再也没有匹配的链接,或调度器中的Request对象用尽,程序才停止。
2.确定爬取目标:
这里选择中国天气网做爬取素材,
所谓工欲善其事必先利其器,爬取网页之前一定要先分析网页,要获取那些信息,怎么获取更加 方便.
篇幅有限,网页源代码这里只展示部分:
可以看到这部分包含城市信息,这是我们需要的信息之一.
接下来继续在页面里找其他需要的信息,例如天气,温度等.
3.填写Items.py
Items.py只用于存放你要获取的字段:
给自己要获取的信息取个名字:
4.填写spider.py
spider.py顾名思义就是爬虫文件.
在填写spider.py之前,我们先看看如何获取需要的信息
刚才的命令行应该没有关吧,关了也没关系
win+R在打开cmd,键入:
这是scrapy的shell命令,可以在不启动爬虫的情况下,对网站的响应response进行处理调试等
运行结果: