Python采集某网站m3u8内容，美女我来了~

最新推荐文章于 2024-04-24 13:35:29 发布

茜茜是帅哥

最新推荐文章于 2024-04-24 13:35:29 发布

阅读量1.1w

点赞数 4

分类专栏： python爬虫文章标签： python pycharm

本文链接：https://blog.csdn.net/m0_72282564/article/details/128454749

版权

python爬虫专栏收录该内容

112 篇文章 15 订阅

订阅专栏

前言

嗨喽，大家好呀~这里是爱看美女的茜茜呐

又到了学Python时刻~

环境使用:

Python 3.8
Pycharm

模块使用:

import requests >>> pip install requests
import re 正则表达式解析数据
import json

安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
在pycharm中点击Terminal(终端) 输入安装命令

基本思路流程: <通用>

一. 数据来源分析:

明确需求:

采集是什么网站

采集是什么数据
- shipin内容
- shipin标题
分析我们想要的数据内容, 是请求那个url地址可以得到的
- 通过开发者工具进行抓包分析
  1. 打开开发者工具: F12 或者鼠标右键点击检查选择network
  2. 刷新网页
  3. 分析shipin内容在哪里?

shipin内容: m3u8视频格式

正常shipin: 2分09秒整体

m3u8: 把整体内容, 分成N个片段 <单独ts文件>, 所有片段 <ts文件> 包含在 m3u8 文件里面

获取内容 —> 获取所有ts文件<片段> —> 获取 m3u8 文件链接 —> 网页源代码里面

二. 代码实现步骤:

发送请求, 模拟浏览器对于url地址发送请求
获取数据, 获取网页源代码
解析数据, 提取我们想要的数据内容
- 标题
- m3u8 文件链接
发送请求, 模拟浏览器对于url地址发送请求

m3u8 文件链接发送请求
获取数据, 获取ts文件内容
解析数据, 提取我们想要的数据内容

所有ts文件链接 <视频片段>
保存数据, 所有片段保存下来, 然后合并成完整内容

代码展示

导入模块

# 导入数据请求模块 --> 第三方模块, 需要安装 pip install requests
import requests
# 导入正则模块 --> 内置模块 不需要安装
import re
# 导入json模块 --> 内置模块 不需要安装
import json
# 导入格式化输出模块 --> 内置模块 不需要安装
from pprint import pprint

“”"

1. 发送请求, 模拟浏览器对于url地址发送请求

伪装模拟 headers 请求头

在开发者工具里面进行复制粘贴

“”"

请求链接

PS：本篇完整源码如有需要的小伙伴可以加下方的群去找管理员免费领取

伪装模拟

headers = {
    # user-agent 用户代理, 表示浏览器基本身份信息
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}

发送请求

调用requests模块里面get请求方法, 对于url地址发送请求, 并且携带上headers请求头伪装, 最后用自定义变量response接收返回数据

response = requests.get(url=url, headers=headers)

<Response [200]> 响应对象, 请求成功了

print(response)

“”"

2. 获取数据, 获取网页源代码

response.text 获取响应文本数据

3. 解析数据, 提取我们想要的数据内容

视频标题
m3u8 文件链接

正则表达式 re

re.findall(‘匹配什么数据’, ‘从什么地方匹配’) 找到所有我们想要的数据内容

“”"

提取视频标题

title = re.findall('"title":"(.*?)",', response.text)[1]

提取m3u8文件链接

html_data = re.findall('window.pageInfo = window.videoInfo = (.*?);', response.text)[0]

转成字典数据类型 type() 内置函数, 查看数据类型

json_data = json.loads(html_data)

键值对取值 --> 根据冒号左边的内容[键], 提取冒号右边的内容[值]

m3u8_url = json.loads(json_data['currentVideoInfo']['ksPlayJson'])['adaptationSet'][0]['representation'][0]['backupUrl'][0]
print(title)
print(m3u8_url)

“”"

4. 发送请求, 模拟浏览器对于url地址发送请求

m3u8 文件链接发送请求

5. 获取数据, 获取ts文件内容

6. 解析数据, 提取我们想要的数据内容

所有ts文件链接 <视频片段>

提取所有ts文件
删除掉所有我们不要的

“”"

m3u8_data = requests.get(url=m3u8_url, headers=headers).text

把什么内容,替换成什么,从什么地方替换 split() 分割成列表

m3u8_data = re.sub('#E.*', '', m3u8_data).split()

for循环遍历, 把列表里面元素一个一个提取出来

for ts in m3u8_data:

字符串拼接, 构建完整

“”"

7. 保存数据, 所有视频片段保存下来, 然后合并成完整视频内容

发送请求, 获取数据内容
然后再进行保存

“”"

    ts_content = requests.get(url=ts_url, headers=headers).content
    with open('video\\' + title + '.mp4', mode='ab') as f:
        f.write(ts_content)
    print(ts_url)