python scrapy教程实例_【小白必看】系列:Scrapy爬虫框架实战案例

03f3c9a3c986a9b541e7e2b6d2fbb20e.png

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

f062e560251f2c6a7963651f2179c55f.png

初识Scrapy

开发环境

创建项目

创建爬虫

项目结构图

创建Item

分析HTML

爬取网页

开发环境

运行平台:Windows 10

Python版本:Python 3.6.1

Scrapy版本:Scrapy 1.4.0

IDE:Sublime text3

浏览器:chrome

下面我们进入本文的主题,爬取我们的第一个网页“去哪儿”的酒店城市列表,图中红色框框部门。

“去哪儿”:http://bnb.qunar.com/hotcity.jsp

c13d4a55d49b25256aa24827d964b199.png

创建项目

scrapy startproject qunar

a957a8d3fa34fe310ea60c5c265ce406.png

红框中是指出创建一个新爬虫。

创建爬虫

cd qunar

scrapy genspider hotel bnb.qunar.com

33929d9ee69147aa9e35f38daedf17fb.png

自此,我们的项目算是基本创建好了,其中“hotel”是指爬虫的名称,“bnb.qunar.com”爬虫的域名。不过为了方便我们项目启动,可以在项目中新建一个entrypoint.py文件,文件内容如下:

464e992e91411b30635c1a7788788296.png

项目结构图

ebee6c8b39df52895dd60dfb117c79dc.png

创建Item

创建一个新的Item方便我们保存所爬取的数据,从爬取的页面中可以看出,我们需要两个数据就够了,一个是城市名称,另一个是城市对应的URL。

下面我们就来创建保存这两个数据Item:

93207ff5c1976ad5760435e43e107db1.png

上面QunarItem是由scrapy自动生成出来的,我们暂时先不管它,如果你想直接用系统创建的那个Item也是可以的。我这里是自己新创建一个,看起来比较好管理。

分析HTML

按F12进入开发者工具,在按Ctrl + Shift + c 进入元素查找状态,找到包裹我们要爬取内容的div,如图下所示:

234c63b56b8fb26ce0ed0a7cba992adf.png

从图中可以看出,A~Z分别在一个div中,所以我们只要解析出一个div那其他25个div也就解析出来了。然后,我们在从右侧中一层一层点进去,找到第一个城市“阿坝”,如下图所示:

7173f9b6c9c1af4e83fd1ece12235848.png

通过对图的观察,可以发现,我们首先要找到包裹所以内容class=”b_allcity”的div,在从这个div中找到所有class=”e_city_list”的div,在从中找到所有“li”标签中的“a”标签,爬取“a”标签中的文本及“href”属性。

item我们已经创建好了,对HTML页面也进行了分析,下面就可以进入主题了“爬虫”,有点小激动。

爬取网页

打开spiders中的hotel.py文件。这文件是系统帮我们创建的,系统帮我们创建了一下关键代码。如图

40f049cb77cc38d03a443a95381deecc.png

下面我们只要对这么代码稍稍改动一点,并写出之前我们对HTML解析的代码就好了。如图:

b20d19300bcaade3f66c3bb7ccc60896.png

本文中我使用的是“BeautifulSoup”来对HTML代码进行解析的,如果有没装“BeautifulSoup”的小伙伴可以在命令窗口中直接安装,安装代码:

pip install bs4

写到这里,代码就已经写完了,下面我们就来运行起来看看效果如何。

在命令窗口输入:

python entrypoint.py

67545810cd5a0fffa6185dd92ce0b01b.png

结果:

bb8d414121fbe931e0c1eae051c826e8.png

从图中可以看出,我们要爬取的内容已经被我们爬取出来了。是不是觉得“so easy”呀!!!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值