Python爬虫实战之电影爬取过程

最新推荐文章于 2024-06-04 11:58:13 发布

工程师大胖

最新推荐文章于 2024-06-04 11:58:13 发布

阅读量1.1w

点赞数 4

文章标签： Python Python爬虫数据分析 Python教程网络爬虫

本文链接：https://blog.csdn.net/NNNJ9355/article/details/108283208

版权

俗话说，兴趣所在，方能大展拳脚。so结合兴趣的学习才能事半功倍，更加努力专心，apparently本次任务是在视频网站爬取一些好看的小电影，地址不放（狗头保命）只记录过程。

从网站上爬取采用m3u8分段方式的视频文件，对加密的 "ts"文件解密，实现两种方式合并"ts"文件，为防止IP被封，使用代理，最后删除临时文件。

在PyCharm中创建一个项目会创建一个临时目录存放环境和所需要的package包，所以要在PyCharm 中项目解释器（Project Interpreter）中添加所有需要的包，这张截图是本项目的包列表，红框中是所必须的包，其他有的包我也不知道做什么用的。

下面开始我们的正餐，爬取数据第一步我们需要解析目标网站，找到我们需要爬取视频的地址，F12打开开发者工具

很不幸，这个网站视频是经过包装采用m3u8视频分段方式加载

科普一下：m3u8 文件实质是一个播放列表（playlist），其可能是一个媒体播放列表（Media Playlist），或者是一个主列表（Master Playlist）。但无论是哪种播放列表，其内部文字使用的都是 utf-8 编码。

当 m3u8 文件作为媒体播放列表（Meida Playlist）时，其内部信息记录的是一系列媒体片段资源，顺序播放该片段资源，即可完整展示多媒体资源。

OK，本着“没有解决不了的困难“的原则我们继续，依旧在开发者模式，从Elements模式切换到NetWork模式，去掉不需要的数据，我们发现了两个m3u8文件一个key文件和一个ts文件

分别点击之后我们可以看到对应的地址

OK，现在地址已经拿到了，我们可以开始我们的数据下载之路了。

首先进行初始化，包括路径设置，请求头的伪装等，之后我们通过循环去下载所有ts文件，至于如何定义循环的次数我们可以通过将m3u8文件下载之后解析文件得到所有ts的列表，之后拼接地址然后循环就可以得到所有ts文件了。

新手学习，Python 教程/工具/方法/解疑＋V：itz992
#EXTM3U

#EXT-X-STREAM-INF:PROGRAM-ID=1,BANDWIDTH=500000,RESOLUTION=720x406

500kb/hls/index.m3u8

观察数据，不是真正路径，第二层路径在第三行可以看到，结合我们对网站源码分析再次拼接字符串请求：


#EXT-X-VERSION:3

#EXT-X-TARGETDURATION:2

#EXT

关注