敲代码累了怎么办，快用python爬小姐姐视频吧

最新推荐文章于 2024-07-23 22:17:33 发布

原创最新推荐文章于 2024-07-23 22:17:33 发布 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #后端

python 同时被 2 个专栏收录

10 篇文章

订阅专栏

爬虫

4 篇文章

订阅专栏

本文介绍了如何使用Python爬虫从网页中抓取视频播放页面URL，并通过正则表达式获取视频src，实现视频资源的下载。分享了利用xpath获取元素及使用正则匹配视频链接的代码示例，适合Python爬虫初学者学习。

快来用python看小姐姐吧

前言
分析页面
具体代码
- 拿取视频播放页面的url
- 拿取视频的src
成果
总结

前言

天天敲代码，看着逐渐光滑的头顶，那么有啥可以让我的心灵得到稍稍的安慰吗
在这里插入图片描述

这时一位大爷给了我们答案
在这里插入图片描述
那来吧，开整。

分析页面

来到主页界面看一下
在这里插入图片描述
首先第一步要拿到视频封面链接的视频页面地址，然后顺着这个地址点进去，就来到了视频播放页面

来到这个页面之后，我们抓取一下请求，发现居然没有视频的请求，这就说明很有可能视频链接就在页面的源代码中，凭借着多年的初级爬虫经验，我们在源代码中搜索一下“play”
在这里插入图片描述
快看，不就隔这呢
那么整个流程欧克了，就可以开始写爬虫代码了

具体代码

拿取视频播放页面的url

这里利用xpath的方式来拿取url，这样的方式相对于正则表达式来说更加简单，正好这里推荐一个插件xpath helper，测试xpath非常好用

下面借助这个插件先测试下我写的xpath
在这里插入图片描述
这不就全出来了

实现代码

 html = requests.get(url)
    html.encoding = 'utf-8'
    htmltext = str(html.text)
    dom_tree = etree.HTML(htmltext)
    htmlurls = dom_tree.xpath('//span[@class="cover"]/a/@href')

拿取视频的src

这里就要使用正则表达式了
使用到的正则表达式如下

# 拿取视频的url
videolink = re.compile(r'id="play-video" src="(.*?)"', re.S)

这样视频链接就拿到了，就可以开始下载了

成果

在这里插入图片描述

这一波可以看好久了
在这里插入图片描述

总结

最后还是那一句话

仅供学习，侵权立删

这次还是一个很简单的爬虫，最近一直没时间去搞一下稍微难一些的爬虫，等以后有机会在搞，除了这个还有许多简单的爬虫示例，有兴趣的可以来看一下，都很适合初学者。

爬虫专栏，快来点我呀

聊天没有表情包被嘲讽，程序员直接用python爬取了十万张表情包

两行代码爬取微博热搜，并实现邮件提醒功能，妈妈再也不用担心我吃不到瓜了爬虫基础

python爬取4k小姐姐图片人生苦短我用python

python爬b站视频人生苦短我用python

Python爬取美女图片爬虫基础