本文利用requests库和正则表达式爬取了猫眼电影TOP100电影信息,并将电影封面和标题、主演等文字信息保存在了本地。本文完整代码链接:https://github.com/iapcoder/MaoYanTop100。运行里面的spider.py即可。
一、目标
- 练习使用正则表达式
- 使用python爬虫的库requests
- 爬取猫眼电影TOP100榜中电影的标题、主演、上映时间、评分、图片链接等信息
- 将每部电影的图片保存在imgs文件夹里,标题、主演等信息保存在results.txt里
二、 效果展示
三、爬虫分析
1.链接分析
抓取的网站为:https://maoyan.com/board/4,打开后便可以看到如下信息:
该页面显示的已经包含我们所需要的信息。 拉到页面下方,发现一共有10页,点击第二页,网页的链接变为: