Python爬虫项目(1)---re正则表达式爬取

最新推荐文章于 2023-05-10 15:56:12 发布

Shawn________

最新推荐文章于 2023-05-10 15:56:12 发布

阅读量427

点赞数

文章标签： python 爬虫正则表达式

本文链接：https://blog.csdn.net/m0_59818728/article/details/123023871

版权

本文介绍了一个Python爬虫项目，利用requests库获取网页内容，再结合re正则表达式解析HTML，提取古诗的标题、作者、朝代和内容。项目中，使用了zip函数来组合多个列表的元素。通过循环遍历不同页面，成功获取并打印了多首古诗的信息。

摘要由CSDN通过智能技术生成

程序演示如下：
import requests
import re

def parse_page(url):
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
response = requests.get(url , headers = headers)
text = response.text
titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>' ,text , re.DOTALL) #re.DOTALL让.可以匹配换行符\n
authors = re.findall(r'<p class="source">.*?<a.*?>(.*?)</a>',text , re.DOTALL)
dynasties = re.findall(r'<p class="source".*?<a.*?>.*?<a.*?>(.*?)</a>', text ,re.DOTALL) #因为朝代在p标签下的第二个a标签，所以要用两个写两个a标签
contents_tags = re.findall(r'<div class="contson".*?>(.*?)</div>',text,re.DOTALL)
contents