2024年最新15个经典面试问题及回答思路视频，简短的爬虫程序，14行Python代码轻松实现爬取网站视频，2024年最新面试前准备多久

2301_77595001

于 2024-04-23 02:55:15 发布

阅读量889

点赞数 6

分类专栏： 2024年程序员学习文章标签：面试音视频爬虫

本文链接：https://blog.csdn.net/2301_77595001/article/details/138101405

版权

2024年程序员学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

收集整理了一份《2024年最新Python全套学习资料》免费送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来

如果你需要这些资料，可以添加V无偿获取：hxbc188 （备注666）

正文

如果import过程显示没有上述库，可以通过文件→设置→projet interpreter中右侧点击+来添加（如果您使用anaconda或者python也可以直接运行本项目，通过cmd→pip install添加）

2.在本文中我们通过python对于在线的短视频进行爬取，下载存储。基本步骤如下（可以写注释梳理思路）：

（1）分析页面URL和视频文件URL特征

（2）获取网页源代码HTML，解决反爬机制

（3）批量下载视频存储

分析页面URL与文件URL特征

在这里插入图片描述

1.分析网页URL

通过网页网址：http://www.budejie.com/video/1，我们可以发现针对不同页码变化的知识网址最后一个数值，而这个数值代表了页数，所以只需要改变为固定网址+变量的形式批量获取该站的网址URL

2.分析文件名URL

通过对于网页当中的mp4的文件名进行分析，发现文件的URL是明文显示的，所以通过re的正则可以匹配获取。

批量获取URL，并从中提取视频的URL

import urllib.request

import re

for page in range (1,20):

req = urllib.request.Request(“http://www.budejie.com/video/%s” % page)

html = urllib.request.urlopen(req).read()

html = html.decode(‘UTF-8’)

print(html)

1.批量爬取网页URL

这里我们page变量代表页面的编码，从这里我们暂时先爬取前20页。

（1）req获取网页反馈

（2）html通过函数获取网页的元代码

（3）通过对于源代码UTF-8编码恢复中文的显示。

但是通过上述代码的执行发现错误显示http Error 403，因为网页的反爬机制不能获取。

在这里插入图片描述

2.通过页面增加头文件

我们通过谷歌浏览器访问页面，按F12并切换到Network，刷新界面观察访问进程，可以从进程文件中选取一个查看头文件，添加到代码中,（这里选取的baisibudejie.js）修改代码如下，可以正常爬取界面。

for page in range (1,20):

req = urllib.request.Request(“http://www.budejie.com/video/%s” % page)

req.add_header(“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36”)

html = urllib.request.urlopen(req).read()

html = html.decode(‘UTF-8’)

print(html)

批量下载视频，并建立文件名存储

在这里插入图片描述

1.建立循环结构批量命名

建立循环结构之后，需要保留文件名下载，i.split(“/”)[-1]的含义是将i进行分割，以‘/’为分割符，保留最后一段，即MP4文件名。

2.批量下载

还是需要加一句显示的输出语句，来表示进程，也符合一个程序的交互性，也就是下载到那个视频的时候显示一下进度，最后下载到一个mp4的文件夹内

for i in re.findall(reg, html):

filename = i.split(“/”)[-1] # 以‘/ ’为分割f符，保留最后一段，即MP4的文件名

print(‘正在下载%s视频’ % filename)

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

如果你需要这些资料，可以添加V无偿获取：hxbc188 （备注666）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
到真正的技术提升。**

如果你需要这些资料，可以添加V无偿获取：hxbc188 （备注666）
[外链图片转存中…(img-ywglouhM-1713812139163)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2301_77595001

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
2024年最新15个经典面试问题及回答思路视频，简短的爬虫程序，14行Python代码轻松实现爬取网站视频，2024年最新面试前准备多久

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。
复制链接

扫一扫