[Practice]||网络爬虫(Python3)-正则表达式(二)

最新推荐文章于 2024-03-28 21:33:54 发布

莫名不知悉

最新推荐文章于 2024-03-28 21:33:54 发布

阅读量696

点赞数 2

文章标签：网络爬虫

本文链接：https://blog.csdn.net/qq_41031798/article/details/89519948

版权

WebSpider-Python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

根据上一个的正则表达式(一)内容，对此进行的简易基础训练。

引入re库

import re

对html源代码有两种获取方式，一种是直接截取，Ctrl+C/V；
另一种是使用requests.get(url).text.

pattern = r"""<div class="more-meta">
                <h4 class="title">
                  (.*?)
                </h4>"""
res = re.compile(pattern)
results = res.findall(html,re.S)

print(results)

这里对定义正则表达式的变量pattern，re.compile个人理解是对正则表达式进行模式编译理解。

运用res.findall(html,re.S)对全文(即页面上的html内容）进行查找匹配。

例如：
我这里打开豆瓣图书的首页，查看源代码。
截取了部分代码其中包含几本书。
(近千行代码，这里就不多加展示）

最后运用上面代码来匹配出我想查找到那几本书的题目：
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

莫名不知悉

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[Practice]||网络爬虫(Python3)-正则表达式(二)

根据上一个的正则表达式(一)内容，对此进行的简易基础训练。引入re库import re对html源代码有两种获取方式，一种是直接截取，Ctrl+C/V；另一种是使用requests.get(url).text.pattern = r"""<div class="more-meta"> <h4 class="title"> ...
复制链接

扫一扫