一、序言
学完正则表达式,今天做了一个实战项目,来爬取某个古诗词网站的诗词信息。
二、代码
# 00 导入所需的包
import requests
import re
# 03 页面解析
def parse_page(url):
# 3.1 构造请求头
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36",
"Referer": "https: // so.gushiwen.cn / shiwen / default_0AA2.aspx"
}
response = requests.get(url,headers=headers)
# 3.2 根据网页构造对返回的内容进行解析
text = response.text
titiles = re.findall