学生问我25-30K得面试题能不能帮忙,这我不得上,爬取某网站电影视频内容

前言

嗨喽!大家好,这里是魔王~

一般国外的电影电视剧,咋都找不到资源,很多人就对此束手无策了

这个时候python就很有用了,只要叫得出名字的,都可以几行代码搞定~

[本次内容]:

Python爬取美剧网站电影视频内容, 25-30K 爬虫工程师面试试题内容

[开发环境]:

  • Python 3.8
  • Pycharm

[模块使用]:

  • requests >>> pip install requests
  • re

win + R 输入cmd 输入安装命令 pip install 模块名 如果出现爆红 可能是因为 网络连接超时 切换国内镜像源
相对应的安装包/安装教程/激活码/使用教程/学习资料/工具插件 可以找我领取

首先我们先来看思路, 爬虫思路:

一. 数据来源分析

分析我们想要的数据内容 是来自于哪里
通过开发者工具进行抓包分析, 去找数据来源

二. 代码实现过程

发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据
1. 发送请求,  对于 url地址发送请求
2. 获取数据, 获取服务器返回的响应数据 (网页源代码)
3. 解析数据, 提取我们想要的数据内容 视频播放地址

4. 发送请求, 对于这个播放地址发送请求
5. 获取数据, 获取服务器返回的数据 (ts文件内容)
6. 解析数据, 提取所有ts文件
7. 保存数据

requests简单的使用 get请求方法 headers请求头

for循环遍历 字符串拼接 列表取值 字符串格式化 f’{}’

正则表达式的简单使用 findall sub 替换

文件操作 open 保存

导入模块

import requests  # 数据请求模块 pip install requests
import re  # 正则表达式模块 内置模块
# url = 'https://www.meiju11.com/Play/7816-0-0.html'
# headers = {
     
#     'Referer': 'https://www.meiju11.com/Play/7816-0-0.html',
#     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'
# }
# response = requests.get(url=url, headers=headers)
# response.encoding = response.apparent_encoding # 自动识别编码转码
# # print(response.text)
# # 每个网站数据结构都不一样, 都是需要重新去数据结构 (你要爬取网站, 通用爬虫 比如说 百度搜索引擎)
# title = re.findall("var playn = '(.*?)',", response
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值