基础爬虫案例

最新推荐文章于 2024-07-11 12:55:40 发布

�wz

最新推荐文章于 2024-07-11 12:55:40 发布

阅读量63

点赞数

文章标签： python httpx pip Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_64351972/article/details/129561917

版权

一.准备工作

我们需要先做好如下准备工作。

1.安装好Python3，最低为3.6 版本，并能成功运行 Python3 程序。

2.了解 Python HTTP请求库requests 的基本用法。

3.了解正则表达式的用法和 Python 中正则表达式库 re 的基本用法。

二.爬取目标

本节我们以一个基本的静态网站作为案例进行爬取，需要爬取的链接为 https://ssr1.scrape.center/,这个网站里面包含一些电影信息，界面如图所示。

我们本次爬虫要完成的目标有:

1.利用 requests 爬取这个站点每一页的电影列表，顺着列表再爬取每个电影的详情页;

2.用正则表达式提取每部电影的名称、封面、类别、上映时间、评分、刷情简介等内容

把以上爬取的内容保存为JSON 文本文件;

三.爬取列表页

第一步爬取肯定要从列表页人手，我们首先观察一下列表页的结构和翻页规则。在浏览器中访问https://ssrl.scrape.center/，然后打开浏览器开发者工具，如图所示。

每一个电影信息区块对应的 HTML 以及进入到详情页的 URL，可以发现每部电影对应的区块都是一个div节点，这些节点的 class 属性中都有 el-card这个值。每个列表页有 10个这样的 div节点，也就对应着 10 部电影的信息。

接下来再分析一下是怎么从列表页进入详情页的，我们选中第一个电影的名称，看下结果，如图所示。

这个名称实际上是一个 h2 节点，其内部的文字就是电影标题。h2 节点的外面包含一个a节点，这个a节点带有 href属性，这就是一个超链接，其中 href 的值为 /detail/1，这是一个相对网站的根 URL https://ssrl.scrape.center/ 的路径，加上网站的根 URL 就构成了 https://ssrl.scrape.center)detail/1，也就是这部电影的详情页的 URL。这样我们只需要提取这个 href 属性就能构造出详情页的URL 并接着爬取了。

接下来我们分析翻页的逻辑，拉到页面的最下方，可以看到分页页码，如图所示。

网页的URL变成了 https://ssrl.scrape.center/page/2，相比根 URL多了 /page/2 这部分内容。网页的结构还是和原来一模一样，可以像第 1页那样处理。

接着我们查看第3页、第4页等内容，可以发现一个规律，这些页面的URL最后分别为 /page/3/page/4。所以，/page 后面跟的就是列表页的页码，当然第 1 页也是一样，我们在根 URL后面加上/page/1 也是能访问这页的，只不过网站做了一下处理，默认的页码是1，所以第一次显示的是第1页内容。

首先，需要先定义一些基础的变量，并引人一些必要的库，写法如下

import requests

import logging

import re

from urllib.parse import urljoin

RESULT_DIR = 'result'

logging.basicConfig(level=logging.INFO,

format='%(asctime)s - %(levelname)s: %(message)s')

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基础爬虫案例

一.准备工作我们需要先做好如下准备工作。1.安装好Python3，最低为3.6 版本，并能成功运行 Python3 程序。2.了解 Python HTTP请求库requests 的基本用法。3.了解正则表达式的用法和 Python 中正则表达式库 re 的基本用法。二.爬取目标本节我们以一个基本的静态网站作为案例进行爬取，需要爬取的链接为这个网站里面包含一些电影信息，界面如图所示。
复制链接

扫一扫

�wz CSDN认证博客专家 CSDN认证企业博客

码龄3年

3: 原创

173万+: 周排名

160万+: 总排名

365: 访问

: 等级

32: 积分

1: 粉丝

2: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

最新评论

Python和Pycharm的安装
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Python和Pycharm的安装
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/613860108。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。