python哔哩哔哩爬虫经验

python和前端学习

已于 2025-01-11 09:31:14 修改

阅读量1k

点赞数 3

文章标签：爬虫

于 2024-11-10 17:16:07 首次发布

本文链接：https://blog.csdn.net/m0_56281030/article/details/143465188

版权

目标

下载某up主所有视频

分析一、获取视频播放地址bv号

1、UP主页视频地址 API 接口有多个数据加密，无法模拟接口地址
解决方法使用 selenium 收集bv号

2、点击播放全部，在此页面可以获取所有bv号
最近20个在静态原文件里，后边的接口在静态文件里最后一个视频开始拼接
最后20个不需要通过上一个id 就能获取，但需要计算总视频个数
举例一共106个视频，前20静态页面后边接口依次是 20 20 20 20 6 20，6这个参数需要通过计算得到并拼接到接口中
经测试可以按上一个id 是下一个接口的参数来请求最后一个请求参数依然是20 返回值是6
静态 20 + api 20 +20 +20 +20 +6方式去获取

代码书写

1、静态页面请求(前20)
获取 20个bv 和page 和最后一个的id
2、api接口请求(剩余的86)
当访问不到新的API接口就停止，有两种解决方法
1、使用try…except 异常捕获，当获取不当api时会报错，用异常捕获跳过报错来停止执行该函数
2、我们发现当获取bv_list数量低于20 或不等于20时，是最后一次请求，可以写判断语句判断list数量等于20，在执行，不
是20都不执行if里的内容
3、异常捕获和if判断，通过 time执行时间的长短，if判断用时最少
使用异常捕获会对服务器多发送两次请求，耗时长，服务器压力大能少访问服务器就少访问一次

问题思考

1、一个UP主所有视频中含有p2内容实际视频数量要多，获取所有bv号和page 才能计算出总视频数量106/120个

2、下载过程遇到意外终止继续是否可以快速断点下载，不需要重头再来
每一个(120) 都有独立的bv + page 组成的唯一对比参数，在对比后找到没有的继续下载

3、下载后，up主会更新新的视频如何在更新中，智能点让代码自己认识到哪些是需要更新的，哪些不需要再次判断一遍

分析二、通过bv号获取视频

1、一个bv号会有p2 视频
2、视频的分辨率必须要带上cookie 才是高清
3、以上的bv号与本地不能进行对比，如果中断后没有p2 很难发现 p2没有下载
4、视频名称有主标题副标题

总结

up主视频爬取总结

1、一个视频含有p2
2、下载视频对比要比对bv号和page 都对比才是完整的
3、下载按照up主上传视频时间顺序下载，最开始的作品先传，bv号和page作为一个数组内容在反顺序
4、和文件夹视频名称做对比不能使用集合会打乱下载顺序
5、下载的时候加cookie 下载清晰度最高的视频
6、名称有主标题副标题，一致只留一个不一致两个一起