Python采集视频数据，下载流媒体m3u8格式

魔王不会哭

已于 2022-03-25 21:31:46 修改

阅读量3.7k

点赞数 7

分类专栏：爬虫文章标签： python 数据分析数据挖掘

于 2022-03-25 20:47:18 首次发布

本文链接：https://blog.csdn.net/python56123/article/details/123744474

版权

本文介绍了如何使用Python爬虫下载m3u8格式的视频。首先分析目标网站，通过开发者工具抓包确定视频数据来源于m3u8文件。接着详细阐述了实现步骤，包括发送请求获取m3u8文件，解析数据，再请求每个ts视频片段并保存，最终合并为完整视频。文中还提到了所需模块如requests、re和json。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

嗨喽！大家好，这里是魔王~

本次目的：

Python采集网站视频，下载流媒体m3u8格式视频

模块使用：

requests >>> pip install requests (数据请求第三方模块)

re # 正则表达式去匹配提取数据

json

开发环境：

Python 3.8 解释器

Pycharm 2021.2 版本建议

win + R 输入cmd 输入安装命令 pip install 模块名如果出现爆红可能是因为网络连接超时切换国内镜像源

爬虫实现流程思路:

一. 数据来源分析

确定目标网站 >>> 爬取网址是什么数据是什么

通过开发者工具进行抓包分析

采集视频

先看network下面 media(媒体文件包含视频数据或者音频数据) [如果没有数据]

通过数据包数据慢慢分析

如果说url里面包含 ts 后缀 >>> 视频片段 >>> m3u8视频格式 (有专门m3u8文件保存所有ts文件内容)

m3u8 就是把一个整体视频, 分割成很多视频小片段一个片段只有几秒时间…
(可以更好缓存, 你看多少,他就给加载多少, 减少服务器压力)

通过上述分析可以知道只需要获取m3u8文件, 可以获取所有ts视频片段…

在这里插入图片描述

二. 代码实现步骤: 发送请求获取数据解析数据保存数据

第一次请求

发送请求, 对于视频详情页页面发送请求

获取数据, 获取网页源代码

解析数据, 提取我们想要数据内容视频信息

第二次请求:

发送请求, 对于m3u8 url地址发送请求

获取数据, 获取返回ts文件内容

解析数据, 提取所有ts文件

保存数据, 把视频内容保存本地, 把视频片段合成为一个完整视频

开始我们得代码

导入模块

# 导入数据请求模块
import requests  # 第三方模块 pip install requests
# 导入正则
import re   # 内置模块 不需要安装
# 导入json
import json     # 内置模块 不需要安装
# 导入格式化输出模块
import pprint    # 内置模块 不需要安装

全部代码

for page in range(8, 17):
    # 获取一页视频ID

最低0.47元/天解锁文章