爬虫——视频类
爬取视频为主
努力学习各种软件
被各种软件折磨的研一狗
展开
-
爬取西瓜视频
其是一个加密的,很明显看出他是base64加密,因为最后有等于号。但是有陷阱,\u002是不应该存在的。分析应该是media-这个包,因为随着视频播放,它不断出现。复制链接,在网页中打开,发现他就是视频。复制关键字,进行搜索,找这个链接在哪里存在,发现在源代码中 的main_url中。打开某个视频,打开开发者工具,网络,XHR,刷新视频。通过该代码可以获得相关视频是的url地址。原创 2024-03-18 10:22:29 · 1162 阅读 · 3 评论 -
爬取糖豆视频
总结:这一案例与爬取好看视频最大的区别在于,它的play_url并不在xhr下的包中,因此找到比较困难。8.访问xhr 中的包获取vid数据,利用获取到的vid数据拼凑含有play_url的包的链接,访问这个链接,获取play_url。注意:访问视频play_url时,必须headers中加上防盗链,否则只会爬取五秒中视频。1.点击media,刷新,播放一个视频,会刷新一个包,点击发现是播放视频的包,9.多页爬取,观察xhr 包的链接有什么规律,发现参数为页数,即可多页爬取。6.查找参数在哪个位置。原创 2024-01-01 10:27:54 · 1721 阅读 · 0 评论 -
爬取好看视频
保存图片 视频 音频 特定格式的文件 都是需要获取二进制数据 进行保存。# 数据保存 对于视频播放地址 也需要发送请求 获取二进制数据。print('正在保存:',title)点击包,在preview中可以看到数据。又点击检查,点击network。视频链接在playurl。原创 2023-12-31 12:27:49 · 1034 阅读 · 0 评论 -
爬取樱花动漫名侦探柯南最新剧场版ts格式
只爬取了一部分数据,樱花动漫网的ts的url地址规律太清楚了,一下子就弄到了。原创 2024-01-26 21:37:58 · 850 阅读 · 0 评论 -
爬取A站视频,涉及m3u8格式的处理
1.学到一个库tqdm的使用2.m3u8视频是分成许多部分的,要找到那个含有所有部分url的包,然后就是找这个包的url3.合成视频使用zipfile库files = os.listdir(filename) # 获取文件夹下所有的小视频。原创 2024-01-22 21:39:23 · 1128 阅读 · 0 评论 -
爬取tx视频
2.与爬取A站视频对比,都是先在xhr找到一个ts片段,然后取链接的参数进行搜索,找到一个链接,访问后能得到类似这样的界面。访问这个包,经过一系列过程,提取其中的一个m3u8链接,访问这个链接后得到最终想要的界面。mode = 'ab'表示重复写入,可以把很多个ts文件写成一个。比较难的是tx中,这个链接难找,通过搜索后找到这样一个包。原创 2024-02-25 20:06:55 · 1117 阅读 · 0 评论 -
爬取短视频
2.爬取视频一般步骤,打开网页视频,打开开发者工具后,选择media,从media中的视链接中截取一部分参数,在进行搜索,找到含有全部url的那个包即可。1.爬取短视频类型,headers中把user-agent,cookie,refer全部加上。这次案例,如果不加refer,则会显示blocked。原创 2024-02-25 16:30:51 · 824 阅读 · 0 评论 -
爬某网站延禧宫率第一集视频
又点击检查-network-xhr,发现有许多ts文件,复制浏览即会下载。-在搜索框搜索m3u8,找到一个html的包,如下。得到了所有ts的包,进行访问提取所有的ts路径代码。原创 2024-02-26 19:47:05 · 2194 阅读 · 0 评论 -
爬取某牙视频
爬取步骤:点进去一个视频播放,查看media看有没有视频,发现没有。在xhr中发现有许多ts文件,但这种不是很长的视频一般都有直接的播放链接,所以目标还是找直接的链接。在搜索中搜索ts文件的某一个参数,或直接搜m3u8可以找到getmonment的包,里面有下载的链接。而这个包的链接与视频id有关。一页如何下载:在主界面找到含有多个视频id的包,爬取视频id和视频名称,再循环将id赋值给getmonment的包的链接,实现一页下载。多页下载:观察主界面的包找url的规律即可。原创 2024-02-27 10:37:42 · 2905 阅读 · 0 评论