爬虫-基于urllib模块通过正则解析爬取猫眼电影

最新推荐文章于 2024-08-09 22:15:00 发布

进击的crawler

最新推荐文章于 2024-08-09 22:15:00 发布

阅读量624

点赞数 1

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luohuatingyu112/article/details/105281245

版权

首先确定目标
目标网站：猫眼电影
目标数据：电影名称，演员，上映日期
首先分析网页结构，打开猫眼电影
在这里插入图片描述
以猫眼top100的第二页为目标，爬取想要的数据，查看网页结构

找到目标字段对应的标签
电影名的标签 = title
演员的标签 = star
上映时间的标签 = releasetime
准备代码

前面都是固定的格式，要准备目标url地址和headers信息
将整页数据爬取下来后，通过正则匹配来查找需要的字段
在这里插入图片描述
然后将匹配完成的字段保存在本地即可

查看结果如下，这里的数据还未进行处理，还好算是能完整匹配出来

这里值得注意的是爬虫还是以面向对象的方式更规范一点，更美观一点，待后续更改

进击的crawler

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫-基于urllib模块通过正则解析爬取猫眼电影

首先确定目标目标网站：猫眼电影目标数据：电影名称，演员，上映日期首先分析网页结构，打开猫眼电影以猫眼top100的第二页为目标，爬取想要的数据，查看网页结构找到目标字段对应的标签电影名的标签 = title演员的标签 = star上映时间的标签 = releasetime准备代码前面都是固定的格式，要准备目标url地址和headers信息将整页数据爬取下来后，通过正则...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。