学生问我25-30K得面试题能不能帮忙，这我不得上，爬取某网站电影视频内容

最新推荐文章于 2024-09-30 23:13:52 发布

魔王不会哭

最新推荐文章于 2024-09-30 23:13:52 发布

阅读量2.1k

点赞数 1

分类专栏：爬虫 python 文章标签：音视频 python 开发语言编程语言

本文链接：https://blog.csdn.net/python56123/article/details/122304114

版权

前言

嗨喽！大家好，这里是魔王~

一般国外的电影电视剧，咋都找不到资源，很多人就对此束手无策了

这个时候python就很有用了，只要叫得出名字的，都可以几行代码搞定~

[本次内容]:

Python爬取美剧网站电影视频内容, 25-30K 爬虫工程师面试试题内容

[开发环境]:

Python 3.8
Pycharm

[模块使用]:

requests >>> pip install requests
re

win + R 输入cmd 输入安装命令 pip install 模块名如果出现爆红可能是因为网络连接超时切换国内镜像源
相对应的安装包/安装教程/激活码/使用教程/学习资料/工具插件可以找我领取

首先我们先来看思路, 爬虫思路:

一. 数据来源分析

分析我们想要的数据内容 是来自于哪里
通过开发者工具进行抓包分析, 去找数据来源

二. 代码实现过程

发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据
1. 发送请求,  对于 url地址发送请求
2. 获取数据, 获取服务器返回的响应数据 (网页源代码)
3. 解析数据, 提取我们想要的数据内容 视频播放地址

4. 发送请求, 对于这个播放地址发送请求
5. 获取数据, 获取服务器返回的数据 (ts文件内容)
6. 解析数据, 提取所有ts文件
7. 保存数据

requests简单的使用 get请求方法 headers请求头

for循环遍历字符串拼接列表取值字符串格式化 f’{}’

正则表达式的简单使用 findall sub 替换

文件操作 open 保存

导入模块

import requests  # 数据请求模块 pip install requests
import re  # 正则表达式模块 内置模块

# url = 'https://www.meiju11.com/Play/7816-0-0.html'
# headers = {
     
#     'Referer': 'https://www.meiju11.com/Play/7816-0-0.html',
#     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'
# }
# response = requests.get(url=url, headers=headers)
# response.encoding = response.apparent_encoding # 自动识别编码转码
# # print(response.text)
# # 每个网站数据结构都不一样, 都是需要重新去数据结构 (你要爬取网站, 通用爬虫 比如说 百度搜索引擎)
# title = re.findall("var playn = '(.*?)',", response