正则表达式和requests抓取猫眼电影排行

该博客介绍了如何使用requests库和正则表达式抓取猫眼电影排行榜的电影名称、上映时间、评分和图片等信息。通过分析网页URL参数,确定抓取策略,编写代码抓取第一页,然后利用正则表达式从源代码中提取所需数据。数据处理后写入文本文件,并实现了分页爬取Top100电影信息,同时注意了反爬策略,设置适当延时。
摘要由CSDN通过智能技术生成

一、目的
利用学习的requests库和正则表达式抓取猫眼电影的排行榜的名称、时间、评分和图片等信息。提取站点的地址:https://maoyan.com/board/4

二、准备工作
确保开发环境安装好了requests库。

三、抓取分析
打开提取站点的地址查看榜单信息,如图1:排名第一是射雕英雄传之东成西就,显示在主界面的有影片的名称、上映时间和地区、主演、评分和图片。翻到下面点击下一页URL地址相应发生改变,如图2:
在这里插入图片描述

在这里插入图片描述
第一页的地址是:https://maoyan.com/board/4
第二页的地址:https://maoyan.com/board/4?offset=10

分析过程
第二页比第一页的参数多了一个offset=10,第一页显示排名第1-10的电影,第二页而且结果排行显示的11-20电影信息。所以这个参数有可能是偏移参数。第三页按理来说就是offset=20,显示排名第21-30的电影信息,验证之后果不其然。如果要提取排名前100的电影那就要请求10次,参数分别设置0、10…80、90即可,在利用正则表达式提取出相关信息即可。

四、抓取首页
下面就利用代码来完成剩下的功能,首先抓取第一页的内容,编写get_first_page()方法,传入URL参数,利

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值