python爬虫之下载电影(不是爱奇艺腾讯视频等平台哈)

原创

已于 2022-04-06 19:56:14 修改 · 3.7k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#python

于 2022-04-05 15:14:28 首次发布

本文介绍了一个用Python实现的程序，用于下载和合并m3u8文件。首先说明了准备工作，包括Python、PyCharm及相关第三方库的安装。接着阐述程序各模块，如返回页面源代码、获取m3u8地址、下载和合并文件等，还给出不同系统下合并文件的方法，最后展示最终代码。

尝试在我的博客中添上程序流程图，如果画的有误或有修改意见请各位大佬提出，我会加以改进的

本程序的流程

在这里插入图片描述

准备工作

python安装完成
pycharm安装完成
lxml、asyncio、aiohttp、aiofiles第三方库安装完成，如果你卡在了这一步，我会写一篇关于python安装第三方库报错的博客

程序各个模块

返回页面源代码部分

def get_page_code(url):
    with requests.get(url) as resp:
        text =resp.text #获得页面的源代码
    print("已经获取到源代码") # 你不要这个也行，但是我看着没有任何提示语句的程序内心很慌张
    return text

获取第一层m3u8地址

找m3u8文件，直接在页面源代码中查找m3u8就行，查找快捷键：Ctrl+F
你就看到了这一行代码
在这里插入图片描述
让我们观察一下，m3u8地址在ifram标签中的src属性里面，我们要确认一下这个页面是否只有一个iframe标签，如果是直接全页面搜索iframe即可，经过查找发现，该页面只有一个iframe标签，那就好办了，这里你可以用xpath或者BeautifulSoup都可以，如果要用BeautifulSoup的话，需要在程序开头加上一句 from bs4 import BeautifulSoup即可，如果报错，评论区中告诉我，我尝试解决
但是这个m3u8文件的地址需要进行处理
在这里插入图片描述

上xpath(xpath不会的话我后期可能会写一篇博客)

def get_first_m3u8_url(code):
    tree = etree.HTML(code)#创建etree对象，由于这里是HTML所以就选HTML就行
    src = tree.xpath('//iframe/@src')[0]#//表示满页面的找ifame标签，@src表示获取iframe标签的src属性值，由于xpath返回的是一个列表，我们只要第一个，所以就是0
    # 到了这一步我们拿到了第一层m3u8文件的地址，但需要提取
    src= src.split("=")[1].strip('&id')# 真正的m3u8文件的地址在第二个元素中
    print("已经获取到了第一层m3u8的地址")
    return src

下载m3u8文件

在第二个函数中我们已经获得到了第一层m3u8文件的地址，但是真正的m3u8文件的地址实在第二层m3u8文件中
所以还要再处理一次

def download_m3u8_file(first_m3u8_file):

    print("正在下载第二层m3u8文件")
    second=  get_page_code(first_m3u8_file)
    root = first_m3u8_file.rsplit('/',3)[0]
    second = second.split()[-1]
    second = root+second#拼接第二层地址
    second_file = get_page_code(second)
    with open("m3u8.txt",mode="w",encoding='utf-8') as f:
           f.write(second_file)
    print("第二层m3u8文件下载完成")

下载文件

这是用协程来实现的两个函数，应该能看得懂

async def download_one(url, sem):
    async with sem:  # 这玩意叫信号量。 可以控制并发量， 目前看  运行稳定。 应该没啥问题
        for i in range(100):
            try:
                print(url, "开始工作")
                filename = url.split('/')[-1]  # 刚刚这里有问题
                async with aiohttp.ClientSession() as session:
                    async with session.get(url) as resp:
                        content = await resp.content.

最低0.47元/天解锁文章