网络爬虫基本案例

最新推荐文章于 2024-06-19 17:27:45 发布

小王..

最新推荐文章于 2024-06-19 17:27:45 发布

阅读量604

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/2301_76803501/article/details/129624240

版权

本文详细介绍了如何使用Python的requests库和正则表达式实现一个完整的网站爬虫，从爬取电影列表页开始，分析HTML结构，提取电影信息，再到爬取详情页，提取更多详细内容。通过多进程加速爬取，最终将数据存储为JSON文件。涉及的知识点包括HTTP请求、正则表达式、URL拼接、HTML解析及多进程爬取。

摘要由CSDN通过智能技术生成

基本爬虫案例

将requests、正则表达式的基本用法等知识点串联起来，实现一个完整的网站爬虫。

1.准备工作

（1）安装好Python3，最低为3.6 版本，并能成功运行 Python3 程序。

（2）了解 Python HTTP请求库requests 的基本用法。

（3）了解正则表达式的用法和 Python 中正则表达式库 re 的基本用法。

2.爬取目标

以一个基本的静态网站作为案例进行爬取，需要爬取的链接为 https://ssr1.scrape.center/,这个网站里面包含一些电影信息，界面如图所示：

网站首页展示的是由多个电影组成的一个列表，其中每部电影都包含封面、名称、分类、上映时间评分等内容，同时列表页还支持翻页，单击相应的页码就能进入对应的新列表页。如果我们点开其中一部电影，会进入该电影的详情页面，例如我们打开第一部电影《霸王别姬》.会得到如图所示的页面：

这个页面显示的内容更加丰富，包括剧情简介、导演、演员等信息。

本次爬虫要完成的目标有:

（1）利用 requests 爬取这个站点每一页的电影列表，顺着列表再爬取每个电影的详情页。

（2）用正则表达式提取每部电影的名称、封面、类别、上映时间、评分、刷情简介等内容

把以上爬取的内容保存为JSON 文本文件。

3.爬取列表页

第一步爬取肯定要从列表页人手，我们首先观察一下列表页的结构和翻页规则。在浏览器中访问https://ssrl.scrape.center/，然后打开浏览器开发者工具，如图所示。

观察每一个电影信息区块对应的 HTML 以及进入到详情页的 URL，可以发现每部电影对应的区块都是一个div节点，这些节点的 class 属性中都有 el-card这个值。每个列表页有 10个这样的 div节点，也就对应着 10 部电影的信息。

可以看到这个名称实际上是一个 h2 节点，其内部的文字就是电影标题。h2 节点的外面包含一个a节点，这个a节点带有 href属性，这就是一个超链接，其中 href 的值为 /detail/1，这是一个相对网站的根 URL https://ssrl.scrape.center/ 的路径，加上网站的根 URL 就构成了 https://ssrl.scrape.center)detail/1，也就是这部电影的详情页的 URL。这样我们只需要提取这个 href 属性就能构造出详情页的URL 并接着爬取了。

接下来分析翻页的逻辑，拉到页面的最下方，可以看到分页页码, 页码最多是10。

单击第 2页, 可以看到网页的URL变成了 https://ssrl.scrape.center/page/2，相比根 URL多了 /page/2 这部分内容。网页的结构还是和原来一模一样，可以像第 1页那样处理。

接着我们查看第3页、第4页等内容，可以发现一个规律，这些页面的URL最后分别为 /page/3/page/4。所以，/page 后面跟的就是列表页的页码，当然第 1 页也是一样，我们在根 URL后面加上/page/1 也是能访问这页的，只不过网站做了一下处理，默认的页码是1，所以第一次显示的是第1页内容。

程序的实现：

于是我们要完成列表页的爬取，可以这么实现:

遍历所有页码，构造 10页的索引页URL;

从每个索引页，分析提取出每个电影的详情页 URL。

那么我们写代码来实现一下吧。

首先，需要先定义一些基础的变量，并引人一些必要的库，写法如下

import requests

import logging

import re

from urllib.parse import urljoin

RESULT_DIR = 'result'

logging.basicConfig(level=logging.INFO,