正则表达式爬取网页实战

最新推荐文章于 2024-07-26 15:33:37 发布

XQLR

最新推荐文章于 2024-07-26 15:33:37 发布

阅读量2.3k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/sgsdsdd/article/details/115259630

版权

本文介绍了如何使用正则表达式从猫眼电影排行榜网页中爬取电影序号、电影名称、图像链接、主演和上映时间。通过Chrome开发者模式分析页面源代码，确定爬取目标和正则表达式模式，最终利用Python的re模块实现数据抓取。

摘要由CSDN通过智能技术生成

文章目录

网址：[猫眼电影排行榜](https://maoyan.com/board/4/)
1.前提
2.确定爬取目标
3.页面分析
4.正则表达式
5.最终完整代码

网址：猫眼电影排行榜

1.前提

首先，Chrome浏览器，右键点击“检查”，打开开发者模式，切换到network，点击当前页面4/。点开后，切换到response，查看源代码。若是直接看elements中的代码，有可能和源代码不同，因为那是经过浏览器加工后的代码。

在这里插入图片描述

2.确定爬取目标

我们爬取出电影序号，电影名称，图像链接，主演，电影上映时间

3.页面分析

在这里插入图片描述

我们通过分析页面，发现关于一部电影的信息，都在dd标签中。
电影序号在<i class="board-index board-index-1">后
电影名称在title=之后
图像链接在img src=之后
主演在class=star之后
上映时间在class="releasetime"之后

4.正则表达式

用每个信息之前的节点来开头，比如用class="board当作爬取电影序号的开头
用.*?来匹配开头与节点信息之间的内容，？用来非贪婪匹配
对于节点信息用（.*?)来匹配，其后写网页源代码中后面的代码。比如电影序号后的代码是</i>，就写（.*?)</i>。电影名称后的代码为 class="image-link，我们就写/sclass="image-link，/s是匹配空格，class="image-link为其后的代码，我们就用(.*?)/sclass="image-link来匹配
最终代码如下

<dd>.*?board-index.*?>(.*?)</i>.*?title="(.*?)"\sclass="ima

最低0.47元/天解锁文章

XQLR

关注

0
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录