前言
1、用python来抓取豆瓣的排行电影的资源数据,主要用了requests抓取数据,xpath和正则表达式来分析数据,xlsx表格来保存数据等
当前相关脚本已优化至:https://blog.csdn.net/weixin_40756394/article/details/118733623
一、页面分析
1、保存表格下来的数据
2、豆瓣电影页面分析
豆瓣电影的网址是:https://movie.douban.com/top250?start=0
分析页面发现数据都在标签li里面,这种就需要确定需要哪些数据,再用xpath去筛选处理的
数据都在item标签里面:href、src、还要相关一些text。
二、代码分析
1.引入相应的库
结合