最新Python爬取六间房小姐姐自拍小视频

2401_84563465

于 2024-05-03 14:15:08 发布

阅读量924

点赞数 18

分类专栏：程序员文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84563465/article/details/138415594

版权

程序员专栏收录该内容

186 篇文章 1 订阅

订阅专栏

目标网页分析

import requests

全部都是漂亮的小姐姐，爱了，爱了~

在这里插入图片描述

想把这些小姐姐的自拍视频全部打包带回家~

网站是动态数据加载的，再开发者工具里面可以找到相关的数据包

在这里插入图片描述

有昵称、标题、封面以及视频地址，复制视频地址会自动下载，所以只需要模拟请求这个也就可以获取相对应的数据了

import requests

import pprint

url = ‘https://v.6.cn/minivideo/getMiniVideoList.php?act=recommend&page=1&pagesize=30’

headers = {‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36’}

response = requests.get(url=url, headers=headers)

html_data = response.json()

pprint.pprint(html_data)

在这里插入图片描述

返回的是json数据，所以我们可以根据字典取值的方法获取视频地址~

pprint 格式化输入模块，这样的会让返回的数据看的清楚。

解析数据，获取视频地址以及标题

lis = html_data[‘content’][‘list’]

for li in lis:

title = li[‘title’]

play_url = li[‘playurl’]

print(title, play_url)

在这里插入图片描述

获取视频地址之后，可以请求视频地址，进行保存

response_2 = requests.get(url=play_url)

path = ‘D:\python\demo\六间房视频\视频\’ + title + ‘.mp4’

with open(path, mode=‘wb’) as f:

f.write(response_2.content)

print(title)

在这里插入图片描述

保存下来的视频是可以播放的，但是这个只是一页的数据，对于这丢丢视频，小编是肯定不满足的~

那怎么实现翻页爬取呢，这就要分析数据接口的url变化了

六间房这个网站的数据加载是瀑流的数据加载方式，和平常我们看到的那点击下一页就跳转的不一样，它是需要你往下滑，然后就会给你出现数据

在这里插入图片描述

可以清楚的看到page的变化是对应的是页码

所以我们只需要在url前面给他循环遍历一下就可以了，达到翻页的效果了

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

18
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄165天

208: 原创

-: 周排名

-: 总排名

14万+: 访问

: 等级

4824: 积分

1977: 粉丝

2676: 获赞

12: 评论

2835: 收藏

私信

关注

热门文章

分类专栏

程序员 186篇
2024年程序员学习

最新评论

2024年自动化快速上手--python(16)--日志模块(2)
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、兼容 loguru模式。相比 loguru 有10胜。 pip install nb_log 。
最新[ Tool ] celery分布式任务框架基本使用(2)，2024年最新终于搞明白了
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/ ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等19个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 funboot能支持celery作为中间件，用户可以使用funboost的极简api来使用celery核心调度，不用手动复杂的配置操作celery funboost 自动化操作celery https://github.com/ydf0509/funboost_support_celery_demo pip install funboost
2024年Android最全Android MVVM 架构应用实现(1)，2024年最新面试官问的那些安卓原理你都懂吗是真的吗
无敌小胖子.com: 全部失效了，有云盘吗，丢一个
2024年软件测试最全手把手教你用jmeter做压力测试（详图）_vue压力测试，软件测试面试题2024答案
书山压力大510: 资源404了，有无百度网盘？
软件测试最全使用内存硬盘(tmpfs)来加速你的网站_内存盘提升网站速度，建议收藏
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。