一次性付费进群,长期免费索取教程,没有付费教程。
教程列表见微信公众号底部菜单
进微信群回复公众号:微信群;QQ群:460500587
微信公众号:计算机与网络安全
ID:Computer-network
稍微增加点难度,做个所需项目多一点的爬虫,并将爬虫的结果以多种形式保存起来。我们就从网络天气预报开始。
首先要做的是确定网络天气数据的来源。打开百度,搜索“网络天气预报”,有很多网站可以选择,任意选择一个都可以。在浏览器中打开该网站,并找到所属的城市,将会出现当地一周的天气预报。 在这里,包含的信息有城市日期、星期、天气图标、温度、天气状况以及风向。除了天气图标是以图片的形式显示,其他的几项都是字符串。本文Scrapy爬虫的目标将包含所有的有用信息。至此,items.py文件已经呼之欲出了。1、创建编辑Scrapy爬虫
首先还是打开Putty,连接到Linux。在工作目录下创建Scrapy项目,并根据提示依照spider基础模版创建一个spider。执行命令:cd
cd code/scrapy
scrapy startproject weather
cd weather
scrapy genspider wuHanSpider wuhan.tianqi.com
执行结果如图1所示。
项目模版创建完毕,项目文件如图2所示。
(1)修改items.py
修改后的items.py代码如下:
1 # -*- coding: utf-8 -*-
2
3 # Define here the models for your scraped items
4 #
5 # See documentation in:
6 # http://doc.scrapy.org/en/latest/topics/items.html
7
8 import scrapy
9
10
11 class WeatherItem(scrapy.Item):
12 # define the fields for your item here like:
13 # name = scrapy.Field()
14 cityDate = scrapy.Field() #城市及日期
15 week = scrapy.Field() #星期
16 img = scrapy.Field() #图片
17 temperature = scrapy.Field() #温度
18 weather = scrapy.Field() #天气
19 wind = scrapy.Field() #风力
在items.py文件中,只需要将希望获取的项名称按照文件中示例的格式填入进去即可。唯一需要注意的就是每一行最前面的到底是空格还是Tabstop。这个文件可以说是Scrapy爬虫中最没有技术含量的一个文件了。填空,就是填空而已。(2)修改Spider文件wuHanSpider.py
第二个修改的文件是spiders/wuHanSpider.py。暂时先不要修改文件,使用scrapy shell命令来测试、获取选择器。执行命令:scrapy shell https://www.tianqi.com/wuhan/
执行结果如图3所示。
selector=response.xpath('//div[@]')
selector1=selector.xpath('ul[@]/li')
selector1
执行结果如图6所示。
然后从selector1中提取有效数据,如图7所示。