根据上一个的正则表达式(一)内容,对此进行的简易基础训练。
引入re库
import re
对html源代码有两种获取方式,一种是直接截取,Ctrl+C/V;
另一种是使用requests.get(url).text
.
pattern = r"""<div class="more-meta">
<h4 class="title">
(.*?)
</h4>"""
res = re.compile(pattern)
results = res.findall(html,re.S)
print(results)
这里对定义正则表达式的变量pattern
,re.compile
个人理解是对正则表达式进行模式编译理解。
运用res.findall(html,re.S)
对全文(即页面上的html内容)进行查找匹配。
例如:
我这里打开豆瓣图书的首页,查看源代码。
截取了部分代码其中包含几本书。
(近千行代码,这里就不多加展示)
最后运用上面代码来匹配出我想查找到那几本书的题目: