正则表达式爬取网页实战

本文介绍了如何使用正则表达式从猫眼电影排行榜网页中爬取电影序号、电影名称、图像链接、主演和上映时间。通过Chrome开发者模式分析页面源代码,确定爬取目标和正则表达式模式,最终利用Python的re模块实现数据抓取。
摘要由CSDN通过智能技术生成

网址:猫眼电影排行榜

1.前提

首先,Chrome浏览器,右键点击“检查”,打开开发者模式,切换到network,点击当前页面4/。点开后,切换到response,查看源代码。若是直接看elements中的代码,有可能和源代码不同,因为那是经过浏览器加工后的代码。

在这里插入图片描述

2.确定爬取目标

我们爬取出电影序号,电影名称,图像链接,主演,电影上映时间

3.页面分析

在这里插入图片描述

我们通过分析页面,发现关于一部电影的信息,都在dd标签中。
电影序号在<i class="board-index board-index-1">
电影名称在title=之后
图像链接在img src=之后
主演在class=star之后
上映时间在class="releasetime"之后

4.正则表达式

用每个信息之前的节点来开头,比如用class="board当作爬取电影序号的开头
.*?来匹配开头与节点信息之间的内容,用来非贪婪匹配
对于节点信息用(.*?)来匹配,其后写网页源代码中后面的代码。比如电影序号后的代码是</i>,就写(.*?)</i>。电影名称后的代码为 class="image-link,我们就写/sclass="image-link/s是匹配空格,class="image-link为其后的代码,我们就用(.*?)/sclass="image-link来匹配
最终代码如下

<dd>.*?board-index.*?>(.*?)</i>.*?title="(.*?)"\sclass="ima
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值