一、目的
利用学习的requests库和正则表达式抓取猫眼电影的排行榜的名称、时间、评分和图片等信息。提取站点的地址:https://maoyan.com/board/4
二、准备工作
确保开发环境安装好了requests库。
三、抓取分析
打开提取站点的地址查看榜单信息,如图1:排名第一是射雕英雄传之东成西就,显示在主界面的有影片的名称、上映时间和地区、主演、评分和图片。翻到下面点击下一页URL地址相应发生改变,如图2:
第一页的地址是:https://maoyan.com/board/4
第二页的地址:https://maoyan.com/board/4?offset=10
分析过程
第二页比第一页的参数多了一个offset=10,第一页显示排名第1-10的电影,第二页而且结果排行显示的11-20电影信息。所以这个参数有可能是偏移参数。第三页按理来说就是offset=20,显示排名第21-30的电影信息,验证之后果不其然。如果要提取排名前100的电影那就要请求10次,参数分别设置0、10…80、90即可,在利用正则表达式提取出相关信息即可。
四、抓取首页
下面就利用代码来完成剩下的功能,首先抓取第一页的内容,编写get_first_page()方法,传入URL参数,利