python数据采集练习根据指定av号下载bilibili视频（二）【正则表达式】

最新推荐文章于 2024-04-22 09:38:28 发布

ShadowFox_

最新推荐文章于 2024-04-22 09:38:28 发布

阅读量1.5k

点赞数 1

分类专栏： python练习（1）文章标签： python re

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ShadowFox_/article/details/82873944

版权

python练习（1）专栏收录该内容

7 篇文章 0 订阅

订阅专栏

如果我们要在一大段文字中找到符合某格式的字符串，最方便的方法莫过于用正则表达式了

正则表达式：https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin

我们需要获取一个网页内的信息，如视频下载链接，视频标题，视频大小等等等，而这些信息往往会以这种形式出现：

<script>window.__playinfo__={...}</script>
"dimension":....
title:.....

它们长度不定，位置不定，但具有一定的格式。我们可以用正则表达式将它们的信息完整的提取出来。

import re

data = re.findall("window.*?;/(fun/)",datas)

re是Python标准库，专门处理正则表达式，其中re.findall()差不多是最常用的一个函数，用来查找在一段数据中符合某模式的字符串片段并返回一个结果列表。

有关Python re 模块的详细教程可以在网上轻易找到，这里不再累述，这里只提一点：贪婪模式与非贪婪模式

re模块默认是贪婪的，即尽可能匹配到符合模式的最长的字符串，但是在网页源码中往往会出现多个类似于 <span>...</span>...<span>...</span>这样的结构，我想让它在出现第一个</span>时就结束匹配。这需要我们开启匹配的非贪婪模式。

假如有一段数据是

data = "test<lt></lt></lt>"

贪婪模式：

>>> re.findall("test.*</lt>",data)
['test<lt></lt></lt>']

非贪婪模式：

>>> re.findall("test.*?</lt>",data)
['test<lt></lt>']

？的作用是匹配前一个表达式0次或一次，或表示非贪婪，这点十分重要。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python数据采集练习根据指定av号下载bilibili视频（二）【正则表达式】

如果我们要在一大段文字中找到符合某格式的字符串，最方便的方法莫过于用正则表达式了正则表达式：https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin 我们需要获取一个网页内的信息，如视频下载链接，视频标题，视频大小等等等，而这些信息往往会以这种形式出现：&lt;script&gt;window.__playinfo__={...}...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。