用python写网络爬虫-下载百思不得姐视频

最新推荐文章于 2024-09-11 08:14:01 发布

Istaroth

最新推荐文章于 2024-09-11 08:14:01 发布

阅读量694

点赞数

分类专栏：算法文章标签： python 网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Joliph/article/details/76851262

版权

算法专栏收录该内容

51 篇文章 0 订阅

订阅专栏

跟着哔哩哔哩视频开始写爬虫啦，目标：下载白死不得姐的视频

1.2.7->3重要改变：

1.import urllib2替换为
import urllib.request
2.html=urllib.request.urlopen(xxx).read()
后要 html=html.decode('UTF-8')
防止出现：TypeError: cannot use a string pattern on a bytes-like object

2.正则表达式

reg=r'data-mp4="(.*?)"'

reg就是正则表达式 r’xxx’:r的目的啊是以原生字符串显示（即：/n不换行而直接显示/n这个字符串） xxx即中间的匹配式子
.?是王能替换变量，在这里表示MP4的网址 ()扩住.?表示把这个替换的变量取出，如果没有括号意思就是只匹配不取出

3.完整代码：

import urllib.request
import urllib.error
import re

print("plz input 1~50")
page=input("which budejie page you want to download?(1~50)")
page=int(page)
while page>50:
    print("plz input 1~50")
    page=input("which budejie page you want to download?(1~50)")
    page=int(page)
headers={'User-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
url="http://www.budejie.com/"+str(page)
request=urllib.request.Request(url,headers=headers)
html=urllib.request.urlopen(request).read()
html=html.decode('UTF-8')#2.7->3!!!!!!!!
reg=r'="(.*?).mp4'
mp4list=re.findall(reg,html)
for i in mp4list:
    print("downloading:"+i+".mp4")
    filename=re.split('/',i)[-1]+".mp4"
    urllib.request.urlretrieve(i+".mp4",filename)

这里正则表达式一开始写的智能爬取一半视频，经过修改，直接找地址.mp4的方式写正则，最后用地址的时候再给加上”.mp4”就可以完美爬取

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Istaroth CSDN认证博客专家 CSDN认证企业博客

码龄8年

90: 原创

9万+: 周排名

169万+: 总排名

19万+: 访问

: 等级

2773: 积分

106: 粉丝

80: 获赞

55: 评论

268: 收藏

私信

关注

热门文章

分类专栏

二进制 41篇
c++ 2篇
算法 51篇
Unity
LLVM 3篇
Lua 3篇

最新评论

spoof_call的分析与改进
Haunser、Lin~轻语: 我明白了，应该寻找汇编指令是jmp [rbx]的地址，今天刚刚研究，没搞清楚，感谢兄弟的文章
spoof_call的分析与改进
Haunser、Lin~轻语: 这个spoofcall是伪造自定义的[rsp＋0]吗不知道为什么我使用spoofcall去调用带有rsp＋0地址检查的游戏内部函数会直接崩溃，兄弟有兴趣探讨下吗
引用折叠 & 万能引用 & 模板参数推导
招c++ 安全内向: 有时间么
spoof_call的分析与改进
Yummy_mm: 使用typedef定义的函数，为什么在编译时会报错呢？严重性代码说明项目文件行禁止显示状态错误 C2039 "spoof_call": 不是 "detail::FunctionTraits<int64_t (__cdecl &)(int64_t &&,int64_t &&,int64_t &&,int64_t &&,int64_t &&,int64_t &&)>" 的成员
IAT-Hook 劫持进程Api调用
wenli7363: 大佬的博客写得好有趣hhhh

最新文章

目录

目录

分类专栏

二进制 41篇
c++ 2篇
算法 51篇
Unity
LLVM 3篇
Lua 3篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。