前言
百度贴吧是以兴趣主题聚合志同道合者的互动平台,同好网友聚集在这里交流话题、展示自我、结交朋友。贴吧中有的帖子当中有用户上传的图片,今天跟着老师把约会吧全吧的图片给爬取下来吧
预先清理磁盘哦~~
本文亮点:
1、分析页面(静态or动态)
2、两层数据解析
3、海量图片数据保存
环境介绍:
python 3.6
pycharm
requests
parsel(xpath)
爬虫的一般思路
1、确定爬取的url路径,headers参数
2、发送请求 -- requests 模拟浏览器发送请求,获取响应数据
3、解析数据 -- parsel 转化为Selector对象,Selector对象具有xpath的方法,能够对转化的数据进行处理
4、保存数据
开始我们的案例吧
步骤
1、导入工具
import requests
import parsel
2、确定爬取的url路径,headers参数