Python：只需20行代码，一键下载网络热门短剧，简直不要太爽！

豆本-豆豆奶

于 2024-09-13 10:32:11 发布

阅读量728

点赞数 15

分类专栏： Python教程零基础教程爬虫文章标签： python 网络 php 爬虫开发语言 Python零基础 python教程

本文链接：https://blog.csdn.net/2301_78095812/article/details/142204053

版权

爬虫同时被 3 个专栏收录

26 篇文章 0 订阅

订阅专栏

零基础教程

21 篇文章 0 订阅

订阅专栏

Python教程

15 篇文章 0 订阅

订阅专栏

网络短剧铺天盖地，主打的就是一个爽字，但有有些博主就是不当人，喜欢一剪没，正当我们看的津津有味的时候，进度条却到底了！！！

对于大家来说，想看续集，都是全凭实力刷续集。

如果这时候你会Python的话，那就不会有这些烦恼了，只需20行代码，分分钟下载全集！

话不多说，我们直接开整！

准备工作

环境使用
Python 3.10 （不一定3.10，只要不是Python2就行）
Pycharm

模块使用
requests >>> pip install requests

为了让大家更好的学会这个案例，小编加班熬夜录制了详细的视频讲解，跟源码一起打包好了，直接下方扫码自取。

爬虫源码已经打包好了，朋友们如果需要可以威x信扫描下方二维码免费获得【保证100%免费】

在这里插入图片描述

案例实现的基本流程

一、数据来源分析

1.明确需求

明确采集的网站以及数据内容

网址: https://www.kuaishou.com/short-video/3xhnk9shm4dzy6i?streamSource=theater¤tPc ursor=27&tubeId=5x4jwip27r8g6wg&thirdTab=%E4%BB%8A%E6%97%A5%E6%9C%80%E7% 83%AD&fromPage=theater&fromChannal=0
数据: 视频内容 (链接)

2.抓包分析

通过浏览器开发者工具分析对应数据位置

 pc端: 网页浏览器自带开发者工具抓包分析   
 app: 利用第三方抓包工具去分析数据位置

打开开发者工具
F12 / 右键点击检查选择network(网络)
刷新网页
让本网页的数据内容重新加载一遍
通过关键字搜索找到对应数据位置
通过链接中一段进行搜索
关键字: 需要什么数据就搜什么数据

项目对于视频网站数据采集

开发者工具 -> 网络 -> 媒体文件 -> 对应视频链接

数据包地址: https://www.kuaishou.com/graphql

二、代码实现步骤

1.发送请求

模拟浏览器对于url地址发送请求

模拟浏览器

一种简单反反爬手段: 相关参数内容可以复制  
	 -开发者工具 -> 网络 -> 点击对应数据包 -> 标头 -> 请求标头  
代码格式:  字典形式  
    -需要构建完整的键值对  
字典形式:  
	dit = {'key': 'value', 'key1': 'value1'}  
		  -key键  
		  -value值  
		  'key': 'value' 键值对

请求网址

刚刚通过抓包分析找到链接地址

发送请求

一般情况: 使用第三方模块 requests

请求方法: 在对应数据包中 -> 标头 -> 常规 -> 请求方法
POST
请求参数:
POST请求: 需要传递表单数据 (载荷中查看)

2.获取数据

获取服务器返回响应数据
response.text

获取响应文本数据 -> 字符串
一般情况在获取网页源代码的时候

response.json()

获取响应json数据 -> 字典
必须是完整的json数据格式

response.content

获取响应二进制数据 -> 二进制

一般用于获取图片/视频/音频/特定格式文件… 数据内容的时候

采集视频: 视频地址  
         对于视频地址发送请求 -> 获取二进制数据进行相关数据保存

3.解析数据
提取我们需要的数据内容字典取值

一般获取json数据, 可能存在多层嵌套  
	dit = {'key': 'value', 'key1': 'value1'}  
	json = {'A': '1', 'B': {'B1': '2', 'B3': '3'}}  
键值对取值: 根据冒号左边的内容[键], 提取冒号右边的内容[值]  
	一层一层提取  
比如提取数字3: json['B']['B3'] -> '3'

4.保存数据

获取视频内容, 进行本地保存

相对路径: 相当于代码所在文件路径 -> video 代码文件目录video文件夹
绝对路径: c盘->文件夹->那个文件路径

三、批量采集

分析请求链接或者参数变化规律

代码展示

# 导入数据请求模块  
import requests  
# 导入文件操作模块  
import os  
# 定义文件夹名字  
file = 'video'  
# 判断文件夹是否存在  
if not os.path.exists(file):  
    # 创建文件夹  
    os.mkdir(file)  
"""发送请求"""  
# 模拟浏览器  
headers = {  
    # User-Agent 用户代理, 表示浏览器基本上身份信息  
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'  
}  
for page in range(28):  
    try:  
        # 请求网址  
        url = 'https://www.kuaishou.com/graphql'  
        # 请求参数  
        data = {"operationName":"visionTubeEpisodeQuery","variables":{"tubeId":"5x4jwip27r8g6wg","episodeNumber":page,"page":"theater","channelId":0},"query":"fragment photoContent on PhotoEntity {\n  __typename\n  id\n  duration\n  caption\n  originCaption\n  likeCount\n  viewCount\n  commentCount\n  realLikeCount\n  coverUrl\n  photoUrl\n  photoH265Url\n  manifest\n  manifestH265\n  videoResource\n  coverUrls {\n    url\n    __typename\n  }\n  timestamp\n  expTag\n  animatedCoverUrl\n  distance\n  videoRatio\n  liked\n  stereoType\n  profileUserTopPhoto\n  musicBlocked\n  riskTagContent\n  riskTagUrl\n}\n\nfragment recoPhotoFragment on recoPhotoEntity {\n  __typename\n  id\n  duration\n  caption\n  originCaption\n  likeCount\n  viewCount\n  commentCount\n  realLikeCount\n  coverUrl\n  photoUrl\n  photoH265Url\n  manifest\n  manifestH265\n  videoResource\n  coverUrls {\n    url\n    __typename\n  }\n  timestamp\n  expTag\n  animatedCoverUrl\n  distance\n  videoRatio\n  liked\n  stereoType\n  profileUserTopPhoto\n  musicBlocked\n  riskTagContent\n  riskTagUrl\n}\n\nfragment feedContent on Feed {\n  type\n  author {\n    id\n    name\n    headerUrl\n    following\n    headerUrls {\n      url\n      __typename\n    }\n    __typename\n  }\n  photo {\n    ...photoContent\n    ...recoPhotoFragment\n    __typename\n  }\n  canAddComment\n  llsid\n  status\n  currentPcursor\n  tags {\n    type\n    name\n    __typename\n  }\n  __typename\n}\n\nquery visionTubeEpisodeQuery($tubeId: String, $episodeNumber: Int, $page: String, $channelId: Int, $webPageArea: String) {\n  visionTubeEpisode(tubeId: $tubeId, episodeNumber: $episodeNumber, page: $page, channelId: $channelId, webPageArea: $webPageArea) {\n    ...feedContent\n    result\n    status\n    __typename\n  }\n}\n"}  
        # 发送请求  
        response = requests.post(url=url, json=data, headers=headers)  
        """获取数据"""  
        # 获取响应的json数据  
        json_data = response.json()  
        """解析数据"""  
        # 提取视频链接  
        video_url = json_data['data']['visionTubeEpisode']['photo']['photoUrl']  
        # 提取短剧名  
        title = json_data['data']['visionTubeEpisode']['tags'][2]['name']  
        print(title)  
        print(video_url)  
        """保存数据"""  
        # 获取视频内容  
        video_content = requests.get(url=video_url, headers=headers).content  
        # 数据保存 w写入数据覆盖 b二进制 wb二进制保存 ()  
        with open('video\\' + title + str(page) + '.mp4', mode='wb') as f:  
            # 写入数据  
            f.write(video_content)  
    except:  
        pass

如果你是准备学习Python或者正在学习（想通过Python兼职），下面这些你应该能用得上：

【点击这里】领取！
包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python！
① Python所有方向的学习路线图，清楚各个方向要学什么东西
② 100多节Python课程视频，涵盖必备基础、爬虫和数据分析
③ 100多个Python实战案例，学习不再是只会理论
④华为出品独家Python漫画教程，手机也能学习
⑤ 历年互联网企业Python面试真题,复习时非常方便
————————————————
在这里插入图片描述