python爬网页视频_Python爬虫进阶之爬取某视频并下载的实现

最新推荐文章于 2024-05-30 16:00:01 发布

weixin_39946767

最新推荐文章于 2024-05-30 16:00:01 发布

阅读量1.7k

点赞数 1

文章标签： python爬网页视频

本文介绍了如何使用Python爬虫来抓取动态加载的网页视频。通过分析网页结构、动态请求以及M3U8文件的处理，实现了视频的下载。文章提到，对于动态网页，可以使用Selenium模拟访问，同时强调了理解网页基础和提高爬虫效率的重要性。

摘要由CSDN通过智能技术生成

这几天在家闲得无聊，意外的挖掘到了一个资源网站(你懂得)，但是网速慢广告多下载不了种种原因让我突然萌生了爬虫的想法。

下面说说流程：

一、网站分析

首先进入网站，F12检查，本来以为这种低端网站很好爬取，是我太低估了web主。可以看到我刷新网页之后，出现了很多js文件，并且响应获取的代码与源代码不一样，这就不难猜到这个网站是动态加载页面。

目前我知道的动态网页爬取的方法只有这两种：1、从网页响应中找到JS脚本返回的JSON数据；2、使用Selenium对网页进行模拟访问。源代码问题好解决，重要的是我获取的源代码中有没有我需要的东西。我再一次进入网站进行F12检查源代码，点击左上角然后在页面点击一个视频获取一个元素的代码，结果里面没有嵌入的原视频链接(看来我真的是把别人想的太笨了)。

没办法只有进行抓包，去找js请求的接口。再一次F12打开网页调试工具，点击单独的一个视频进行播放，然后在Network中筛选一下，只看HXR响应(HXR全称是XMLHTTPRequest,HMLHTTP是AJAX网页开发技术的重要组成部分。除XML之外，XMLHTTP还能用于获取其它格式的数据，如JSON或者甚至纯文本。)。

然后我一项一项的去检查返回的响应信息，发现当我点击播放的时候有后缀为.m3u8的链接，随后就不断刷新.ts文件的链接。

本来以为这就是原视频的地址，我傻傻的直接从这个m3u8文件的headers中的URL直接进入网站看看，结果傻眼了，获取的是一串串.ts的文件名。

没办法只能百度君了。科普了一下，也就说我们必须把ts文件都下载下来进行合并之后才能转成视频。

好了，视频原地址弄清楚了，现在我们开始从一个视频扩展到首页的整个页面的视频。再一次进行抓包分析，发现一个API中包含了首页的分类列表，然而里面并没有进入分类的URL地址，只有一个tagid值和图片的地址。

于是我又在主页点一个分类，再次进行抓包，发现了一个API中包含了一个分类的单页所有视频的信息，通过他们的headers中的URL对比发现，关于视频的前一部分都是https:xxxxxxx&c=video,然后m=categories，通过字面意思我们都可以知道是分类，而每个tagid值对应不同的分类。并且还发现每个URL中都追加了时间戳timestamp(这是web主为了确保请求不会在它第一次被发送后即缓存，看来还是有小心机啊)。当m=lists，则是每个分类下的视频列表，这里面我们就可以找到每个视频对应的ID了。

通过id我们可以获取到视频的详细信息，并且还有m3u8文件URL地址的后面一部分。

好了，网站我们解析清楚了，现在开始堆码了。

二、写代码

导入相关模块

import requests

from datetime import datetime

import re

#import json

import time

import os

#视频分类和视频列表URL的前一段

url = "http://

最低0.47元/天解锁文章

weixin_39946767

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
python爬网页视频_Python爬虫进阶之爬取某视频并下载的实现

这几天在家闲得无聊，意外的挖掘到了一个资源网站(你懂得)，但是网速慢广告多下载不了种种原因让我突然萌生了爬虫的想法。下面说说流程：一、网站分析首先进入网站，F12检查，本来以为这种低端网站很好爬取，是我太低估了web主。可以看到我刷新网页之后，出现了很多js文件，并且响应获取的代码与源代码不一样，这就不难猜到这个网站是动态加载页面。目前我知道的动态网页爬取的方法只有这两种：1、从网页响应中找到JS...
复制链接

扫一扫