[Practice]||网络爬虫(Python3)-正则表达式(二)

根据上一个的正则表达式(一)内容,对此进行的简易基础训练。

引入re库

import re

对html源代码有两种获取方式,一种是直接截取,Ctrl+C/V
另一种是使用requests.get(url).text.

pattern = r"""<div class="more-meta">
                <h4 class="title">
                  (.*?)
                </h4>"""
res = re.compile(pattern)
results = res.findall(html,re.S)

print(results)

这里对定义正则表达式的变量patternre.compile个人理解是对正则表达式进行模式编译理解。

运用res.findall(html,re.S)对全文(即页面上的html内容)进行查找匹配。

例如:
我这里打开豆瓣图书的首页,查看源代码。
截取了部分代码其中包含几本书。
(近千行代码,这里就不多加展示)

最后运用上面代码来匹配出我想查找到那几本书的题目:
在这里插入图片描述

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值