Python采集视频数据,下载流媒体m3u8格式

本文介绍了如何使用Python爬虫下载m3u8格式的视频。首先分析目标网站,通过开发者工具抓包确定视频数据来源于m3u8文件。接着详细阐述了实现步骤,包括发送请求获取m3u8文件,解析数据,再请求每个ts视频片段并保存,最终合并为完整视频。文中还提到了所需模块如requests、re和json。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

嗨喽!大家好,这里是魔王~

本次目的:

Python采集网站视频,下载流媒体m3u8格式视频
在这里插入图片描述

模块使用:

  • requests >>> pip install requests (数据请求 第三方模块)
  • re # 正则表达式 去匹配提取数据
  • json

开发环境:

  • Python 3.8 解释器
  • Pycharm 2021.2 版本 建议

win + R 输入cmd 输入安装命令 pip install 模块名 如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

爬虫实现流程思路:

一. 数据来源分析
  1. 确定目标网站 >>> 爬取网址是什么 数据是什么
  2. 通过开发者工具进行抓包分析

采集视频

  1. 先看network下面 media(媒体文件包含视频数据或者音频数据) [如果没有数据]
  2. 通过数据包数据慢慢分析

如果说url里面包含 ts 后缀 >>> 视频片段 >>> m3u8视频格式 (有专门m3u8文件保存所有ts文件内容)

m3u8 就是把一个整体视频, 分割成很多视频小片段 一个片段只有几秒时间…
(可以更好缓存, 你看多少,他就给加载多少, 减少服务器压力)

通过上述分析可以知道 只需要获取m3u8文件, 可以获取所有ts视频片段…

在这里插入图片描述

二. 代码实现步骤: 发送请求 获取数据 解析数据 保存数据
第一次请求
  1. 发送请求, 对于视频详情页页面发送请求
  2. 获取数据, 获取网页源代码
  3. 解析数据, 提取我们想要数据内容 视频信息
第二次请求:
  1. 发送请求, 对于m3u8 url地址发送请求
  2. 获取数据, 获取返回ts文件内容
  3. 解析数据, 提取所有ts文件

保存数据, 把视频内容保存本地, 把视频片段合成为一个完整视频
在这里插入图片描述

开始我们得代码

导入模块

# 导入数据请求模块
import requests  # 第三方模块 pip install requests
# 导入正则
import re   # 内置模块 不需要安装
# 导入json
import json     # 内置模块 不需要安装
# 导入格式化输出模块
import pprint    # 内置模块 不需要安装

全部代码

for page in range(8, 17):
    # 获取一页视频ID
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值