开发环境
·python3.10
·pycharm
相关模块的应用
import requests
from bs4 import BeautifulSoup
import asyncio
import aiohttp
import aiofiles
确定目标需求
对某盗版网站进行浴血黑帮视频的爬取
嘿嘿
进行网页数据分析,找寻我们所需的数据来源
由于该视频存在2个m3u8
所以我们得先得到第一层的m3u8文件下载地址,再从第一层m3u8文件中得到第二层m3u8文件的下载地址。当然,你也可以直接在第二个m3u8里获取它的url进行视频下载。
整体思路
1.拿到主页面的页面源代码,找到iframe
2.从iframe的页面源代码中拿到m3u8文件
3.下载第一层m3u8文件,----》下载第二层m3u8文件(得到视频的全部ts路径)
4.下载视频
5.下载秘钥进行解密操作
6.合并所有ts文件为一个mp4文件(利用各种办法:工具或者代码都行)
代码的实现
1.对浴血黑帮视频的下载
import requests
from bs4 import BeautifulSoup
import asyncio
import aiohttp
import aiofiles
# 获取iframe_src
def get_iframe_src(url):
res = requests.get(url) # 获取页面源代码
main_pa