Python网络数据采集--视频下载
简介
- 模块导入(第三方包)
pip install requests
pip install json
- 基本流程(思路)
# 爬虫的一般思路
# 1、分析目标网页,确定爬取的url路径,headers参数
# 2、发送请求--requests 模拟浏览器发送请求,获取响应数据
# 3、解析数据 json模块:把json字符串转化成python可交互的数据类型
# 4、保存数据--保存在目标文件夹中
案例分析
- 使用浏览器打开网络数据采集网站https://haokan.baidu.com/ 我们随便选择一个分类,例如娱乐https://haokan.baidu.com/tab/yule
使用的浏览器是谷歌chrome浏览器
- 使用谷歌浏览器右击打开检查
- 选择Network