【爬虫】基础爬虫案例分析（一看就懂）

油麦少女小啊齐

已于 2023-03-16 10:54:38 修改

阅读量541

点赞数 1

文章标签：爬虫 python 搜索引擎 Powered by 金山文档

于 2023-03-16 10:32:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2201_75558964/article/details/129562404

版权

本文介绍了如何使用Python基础爬虫技术来爬取电影信息。首先，讲解了爬虫的基本概念及其作用，接着详细阐述了爬取流程，包括了解requests库和正则表达式，分析目标网站的结构，从列表页抓取电影信息，再到爬取每个电影的详情页。通过使用requests库抓取页面，正则表达式解析内容，以及多进程加速爬取，最终将数据保存为JSON文件。文章适合Python爬虫初学者，旨在帮助读者理解爬虫的工作原理和实践应用。

摘要由CSDN通过智能技术生成

什么是爬虫。简单一句话就是代替人去模拟浏览器进行网页操作。

爬虫的作用。为其他程序提供数据源，如搜索引擎(百度、Google等)、数据分析、大数据等等。

一、准备工作

我们需要先做好如下准备工作：

安装好Python3，最低为3.6 版本，并能成功运行 Python3 程序。

具体安装步骤可以看下这个链接：http://t.csdn.cn/RvBqQ

2.了解 Python HTTP请求库requests 的基本用法。

请求，英文为Request，由客户端发往服务器，分为四部分内容: 请求方法(Request Method).请求的网址(Request URL )、请求头( Request Headers )、请求体(Request Body )。

这里我就不系统的解释了，如果想要了解更完善可以点击这个链接：http://t.csdn.cn/unbf3

3.了解正则表达式的用法和 Python 中正则表达式库 re 的基本用法。

1.正则表达式的用法

（1）判断特定字符串

（2）切割字符串

（3）提取字符串信息

（4）替换字符串

2.正则表达式库 re 的基本用法

re模块主要定义了9个常量、12个函数、1个异常，re库，Python处理文本的标准库（标准库的意思表示这是一个Python内置模块，不需要额外下载）。

（1）sreach用法：它会搜索整个 HTML 文本，找到符合上述正则表达式的第一个内容并返回。匹配连续的多个数值。

（2）match用法：向它传人要匹配的字符串以及正则表达式，就可以检测这个正则表达式是否和字符串相匹配。

（3）compile用法：可以将正则字符串编译成正则表达式对象，以便在后面的匹配中复用。

（4） findall用法：获取与正则表达式相匹配的所有字符串。

（5） sub 用法：使用正则表达式提取信息，有时候还需要借助它来修改文本。

二.爬取目标

本节我们以一个基本的静态网站作为案例进行爬取，需要爬取的链接为 https://ssr1.scrape.center这个网站里面包含一些电影信息，界面如图所示。

网站首页展示了一个由多个电影组成的列表，其中每部电影都包含封面、名称、分类、上映时间评分等内容，同时列表页还支持翻页，单击相应的页码就能进入对应的新列表页。如果我们点开其中一部电影，会进入该电影的详情页面，例如我们打开第一部电影《霸王别姬》.会得到如图所示的页面。

这个页面显示的内容更加丰富，包括剧情简介、导演、演员等信息。

我们本次爬虫要完成的目标有:

1.利用 requests 爬取这个站点每一页的电影列表，顺着列表再爬取每个电影的详情页;

2.用正则表达式提取每部电影的名称、封面、类别、上映时间、评分、刷情简介等内容

把以上爬取的内容保存为JSON 文本文件;

已经做好准备，也明确了目标，那我们现在就开始吧。

三.爬取列表页

1.爬取肯定要从列表页人手，我们首先观察一下列表页的结构和翻页规则。在浏览器中访问https://ssr1.scrape.center，然后打开浏览器开发者工具，如图所示。然后打开浏览器开发者工具，如图所示。

最低0.47元/天解锁文章

油麦少女小啊齐

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
【爬虫】基础爬虫案例分析（一看就懂）

本节用到的库有roquests、multiprocessing、relogging等，通过这个案例实战，我们把前面学习到的知识都串联了起来、对于其中的一些实现方法，可以好好思考和体会，也希望这个案例能够让你对爬虫的实现有更实际的了解。希望这篇文章能对大家有所帮助，希望大家能从中学到知识。
复制链接

扫一扫

油麦少女小啊齐 CSDN认证博客专家 CSDN认证企业博客

码龄2年

2: 原创

160万+: 周排名

98万+: 总排名

3216: 访问

: 等级

26: 积分

3: 粉丝

5: 获赞

6: 评论

23: 收藏

私信

关注

热门文章

最新评论

【爬虫】基础爬虫案例分析（一看就懂）
油麦少女小啊齐: 谢谢
【爬虫】基础爬虫案例分析（一看就懂）
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)；(2)使用标准目录；(3)使用更多的站内链接。
Python+Pycharm的安装详细流程
阿J~: 大佬，一给我嘞giao
Python+Pycharm的安装详细流程
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/613875484。
Python+Pycharm的安装详细流程
油麦少女小啊齐: 你看下这个http://t.csdn.cn/gzJvB

最新文章

Python+Pycharm的安装详细流程

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。