谈到爬虫大家可能对Requests库不会陌生,相比urllib库的话Requests库在处理网页认证和Cookies时更加方便,话不多少,下面让我通过爬取猫眼电影前100名排行榜实例来说明一下。
首先我们打开猫眼电影排行版链接‘https://maoyan.com/board/4’界面效果如图所示,可以看到排行榜第一名是张国荣主演的“霸王别姬”,还有电影评分。
当我们把网页下拉到最下方时,此时我们点击第二页,我们可以看到链接地址为‘https://maoyan.com/board/4?offset=10’,当鼠标点击第3页时网页链接地址为‘https://maoyan.com/board/4?offset=20’,点击第10页时网页链接地址为‘https://maoyan.com/board/4?offset=90’。此时我们不难发现出规律,当我们选择查看第几页的时候,只是offset=