Python爬取猫眼电影TOP100榜

最新推荐文章于 2024-05-14 14:07:38 发布

MMddyhc

最新推荐文章于 2024-05-14 14:07:38 发布

阅读量783

点赞数 1

分类专栏：爬虫 Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_41496127/article/details/109133109

版权

Python爬取猫眼电影TOP100榜

兴趣点：

这个没什么特别的兴趣，只是单纯爬猫眼练手的人太多了，所以我也打算加入他们，对猫眼员工说一声不好意思了，哈哈哈！

爬取网址：

传送门：https://maoyan.com/board/4

爬虫大体思路及方法：

大体思路：
（1）TOP100榜共10页，每页10部电影，他们的文本和电影专页链接就是我们的目标
（2）我们先把这10页网页的URL链接获取出来，放到一个列表里
（3）利用循环读取每个网页中的每个电影的相关信息（姓名，主演，上映时间，链接），读入一个列表，直接写入txt文件
方法：
（1）页面获取方法：getHTMLText(url)
（2）把10页网页的URL存入列表：fillList(url,pagelist)
（3）获取并保存相关信息：getAndSave(pagelist,path)
参数解读：
（1）pagelist：存储10页网页的URL的列表
（2）path：本地存储路径

部分细节讲解：

（1）我这两天可能是爬猫眼的次数有点多了，IP被限制了，访问会弹出“美团验证”，这样我的爬虫就访问不到目标网页了(；′⌒`)，网上找到的方法就是在headers里加一个Cookie：
Cookie查找位置
（2）页面规律：可以发现第一页是?offset=0

真实url获取：

url = "https://maoyan.com/board/4?offset="
for i in range(10):		#共10页
	new_url = url + "{}".format(i*10)

（3）txt文件打开我放在了循环的外面，感觉

最低0.47元/天解锁文章

MMddyhc

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
Python爬取猫眼电影TOP100榜

Python爬取猫眼电影TOP100榜兴趣点：这个没什么特别的兴趣，只是单纯爬猫眼练手的人太多了，所以我也打算加入他们，对猫眼员工说一声不好意思了，哈哈哈！爬取网址：传送门：https://maoyan.com/board/4爬虫大体思路及方法：大体思路：（1）TOP100榜共10页，每页10部电影，他们的文本和电影专页链接就是我们的目标（2）我们先把这10页网页的URL链接获取出来，放到一个列表里（3）利用循环读取每个网页中的每个电影的相关信息（姓名，主演，上映时间，链接），读入一个列表
复制链接

扫一扫