为了防止这些视频下架,我连夜用Python将她们下载下来

晚上在不经意间刷到一些好看的视频,为了防止视频消失被删,我连夜写了代码将她们爬了下来,真好看!

准备工作

环境使用

Python 3.10
Pycharm

模块使用

requests --> pip install requests
DrissionPage --> pip install DrissionPage
execjs --> pip install pyexecjs
json re

文章看不懂,没关系,我还录制了详细的视频讲解,直接文末点击名片自取即可。

基本的流程

一、数据来源分析

1.明确需求

明确采集的网站以及数据内容

  • 网址: https://***/user/MS4wLjABAAAAB0-gppwu15DtJJZmMpgUqakr7Jw_pmr7 skR3IW6MwCQ?modal_id=7373225752063413554
  • 数据: 视频内容 / 视频标题
    2.抓包分析
    通过浏览器开发者工具分析对应的数据位置

基本抓包步骤: 浏览器中进行的操作
1.打开开发者工具
-F12 / 右键点击检查选择 network (网络)
2.刷新网页
3.通过关键字搜索找到对应数据位置关键字: 需要什么数据搜什么数据
-找视频链接地址: 开发者工具 -> 网络 -> 媒体
-利用链接中一段参数进行搜索

数据包地址: https://****/user/MS4wLjABAAAAB0- gppwu15DtJJZmMpgUqakr7Jw_pmr7skR3IW6MwCQ?modal_id=7373225752063413554

二、代码实现步骤

1.发送请求

模拟浏览器对于url地址发送请求模拟浏览器

 使用请求标头中的参数即可
     - 开发者工具 -> 网络 -> 点击对应的数据包 -> 标头 -> 请求标头

请求网址

 刚刚抓包分析找到链接地址

发送请求

 使用第三方模块: requests进行数据请求
2.获取数据

获取服务器返回响应数据

3.解析数据

提取我们需要的数据: 视频链接 / 视频标题

在这里插入图片描述

4.保存数据

获取视频内容, 保存本地文件夹
批量采集数据
分析请求链接/参数变化规律

好了,分享到这,源码和视频讲解在下方名片自取

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值