每天一点点,记录学习每一步
近期爬虫项目:
1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载
3:python 爬虫爬取百度贴吧图片 urllib.request.urlretrieve图片批量下载函数
python爬取猫眼电影top100榜数据
目标url = 猫眼电影top100榜网址
1:确定抓取的数据字段:排名,海报,电影名字,主演,上映时间,评分;
2:分析页面html标签结构,找到数据所在位置;
1:)排名所在html标签结构中的位置:
index = html.xpath('//dd/i/text()')