python第三方库re库实例之爬取古诗词网上诗歌

最新推荐文章于 2023-07-28 21:38:44 发布

laiczhang

最新推荐文章于 2023-07-28 21:38:44 发布

阅读量1.7k

点赞数 1

分类专栏： python库实例从新手到大师之python爬虫100篇文章标签： python re 爬虫古诗词

本文链接：https://blog.csdn.net/qq_44621510/article/details/90740871

版权

# 使用正则表达式解析网页元素
# 关键点:直接找每个个体里面相同位置的元素，用findall一次提取出来到列表中
import requests
import re
DATA = []
def getHTMLtext(url,headers,timeout=10):
    try :
        resp = requests.get(url,headers=headers,timeout=timeout)
        resp.raise_for_status
        resp.encoding = 'utf-8'
        return resp.text
    except:
        return ''
def reParser(text):
    name_list = re.findall(r'<div class="yizhu".*?<b>(.*?)</b>',text,re.S)  #re.DOTALL
     
    dynasty_list = re.findall(r'<p class="source">.*?target="_blank">(.*?)</a>',text,re.S)
     
    author_list = re.findall(r'<p class="source">.*?target="_blank">.*?</a>.*?target="_blank">(.*?)</a>',text,re.S)
     
    row_content_list = re.findall(r'<div class="contson".*?>(.*?)</div>',text,re.S)