基础爬虫的案例

本文详细介绍了如何使用Python的基础爬虫知识,包括requests库和正则表达式,实现对一个电影信息网站的爬取。首先讲解了爬取目标,接着分析了网站结构和翻页规则,通过requests请求页面并使用正则表达式提取信息。然后,展示了如何爬取列表页和详情页,提取电影名称、封面等信息,并保存为JSON文件。最后,讨论了使用多进程加速爬取的可能性,提高爬取效率。
摘要由CSDN通过智能技术生成

在本学期我们已经学习了requests、正则表达式的基本用法,但还没有完整地实现过一个爬取案例这一节,我们就来实现一个完整的网站爬虫,把前面学习的知识点串联起来,同时加深对这些知识点的理解

1.准备工作

我们需要先做好如下准备工作。

1.安装好Python3,最低为3.6 版本,并能成功运行Python3 程序。

2.了解 Python HTTP请求库requests 的基本用法。

3.了解正则表达式的用法和 Python 中正则表达式库 re 的基本用法。

以上内容在前面的章节中多有讲解。

2.爬取目标

本节我们以一个基本的静态网站作为案例进行爬取,需要爬取的链接为 ,这个网站里面包含一些电影信息,界面如图所示。

网站首页展示了一个由多个电影组成的列表,其中每部电影都包含封面、名称、分类、上映时间评分等内容,同时列表页还支持翻页,单击相应的页码就能进入对应的新列表页。如果我们点开其中一部电影,会进入该电影的详情页面,例如我们打开第一部电影《霸王别姬》.会得到如图所示的页面。

这个页面显示的内容更加丰富,包括剧情简介、导演、演员等信息。

我们本次爬虫要完成的目标有:

1.利用 requests 爬取这个站点每一页的电影列表,顺着列表再爬取每个电影的详情页;

2.用正则表达式提取每部电影的名称、封面、类别、上映时间、评分、刷情简介等内容

把以上爬取的内容保存为JSON 文本文件;

已经做好准备,也明确了目标,那我们现在就开始吧。

3.爬取列表页

第一步爬取肯定要从列表页人手,我们首先观察一下列表页的结构和翻页规则。在浏览器中访问,然后打开浏览器开发者工具,如图所示。

观察每一个电影信息区块对应的 HTML 以及进入到详情页的 URL,可以发现每部电影对应的区块都是一个div节点,这些节点的 class 属性中都有 el-card这个值。每个列表页有 10个这样的 div节点,也就对应着 10 部电影的信息。

接下来再分析一下是怎么从列表页进入详情页的,我们选中第一个电影的名称,看下结果,如图所示。

可以看到这个名称实际上是一个 h2 节点,其内部的文字就是电影标题。h2 节点的外面包含一个a节点,这个a节点带有 href属性,这就是一个超链接,其中 href 的值为 /detail/1,这是一个相对网站的根 URL的路径,加上网站的根 URL 就构成了)detail/1,也就是这部电影的详情页的 URL。这样我们只需要提取这个href 属性就能构造出详情页的URL 并接着爬取了。

接下来我们分析翻页的逻辑,拉到页面的最下方,可以看到分页页码,如图所示。

可以观察到这里一共有 100 条数据,页码最多是10

我们单击第 2页、如图所示。

可以看到网页的URL变成了 ,相比根 URL多了 /page/2 这部分内容。网页的结构还是和原来一模一样,可以像第 1页那样处理。

接着我们查看第3页、第4页等内容,可以发现一个规律,这些页面的URL最后分别为 /page/3/page/4。所以,/page 后面跟的就是列表页的页码,当然第 1 页也是一样,我们在根 URL后面加上/page/1 也是能访问这页的,只不过网站做了一下处理,默认的页码是1,所以第一次显示的是第1页内容。

好,分析到这里,逻辑基本清晰了

程序的实现

于是我们要完成列表页的爬取,可以这么实现:

遍历所有页码,构造 10页的索引页URL;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值