首先确定目标
目标网站:猫眼电影
目标数据:电影名称,演员,上映日期
首先分析网页结构,打开猫眼电影
以猫眼top100的第二页为目标,爬取想要的数据,查看网页结构
找到目标字段对应的标签
电影名的标签 = title
演员的标签 = star
上映时间的标签 = releasetime
准备代码
前面都是固定的格式,要准备目标url地址 和headers信息
将整页数据爬取下来后,通过正则匹配来查找需要的字段
然后将匹配完成的字段保存在本地即可
查看结果如下,这里的数据还未进行处理,还好算是能完整匹配出来
这里值得注意的是爬虫还是以面向对象的方式更规范一点,更美观一点,待后续更改
爬虫-基于urllib模块通过正则解析爬取猫眼电影
最新推荐文章于 2024-08-09 22:15:00 发布