正则表达式初次练习之python爬取古诗词网推荐十页所有古诗词

最新推荐文章于 2024-03-20 10:35:39 发布

derrick_lh

最新推荐文章于 2024-03-20 10:35:39 发布

阅读量313

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/derrick_lh/article/details/104828375

版权

python爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

正则表达式初次练习之python爬取古诗词网推荐十页所有古诗词

import requests
import re

HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}

def poem_get(url):
    resp = requests.get(url=url,headers=HEADERS)
    html = resp.text
    # 注意"."不能获取到\n，即换行，需要加一点代码re.S 等同于re.Dotall
    titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>',html,re.S)
    dynasty = re.findall(r'<p\sclass="source">.*?<a.*?>(.*?)</a>',html,re.S)
    authors= re.findall(r'<p\sclass="source">.*?</span><a.*?>(.*?)</a>',html,re.S)
    contents = re.findall(r'<div\sclass="contson".*?>(.*?)</div>',html,re.S)
    pure_list =[]
    for content in contents:
        pure_text = re.sub(r'<.*?>',"",content)
        pure_list.append(pure_text.strip())

    poems=[]
    for value in zip(titles,dynasty,authors,pure_list):
        titles,dynasty,authors,pure_list = value
        poem = {"标题":titles,
                "朝代":dynasty,
                "作者":authors,
                "内容":pure_list}
        print(poem)
        print('='*50)
        poems.append(poem)

def url_make():
    ori_url = 'https://www.gushiwen.org/default_{}.aspx'
    for x in range(1,11):
        url = ori_url.format(x)
        poem_get(url)

if __name__  == '__main__':
    url_make()