python爬取古诗词网正则表达式

最新推荐文章于 2024-06-13 11:18:37 发布

有意识的呼吸

最新推荐文章于 2024-06-13 11:18:37 发布

阅读量391

点赞数

分类专栏：所谓爬虫文章标签： python 正则表达式

本文链接：https://blog.csdn.net/qq_41205771/article/details/98979109

版权

所谓爬虫专栏收录该内容

25 篇文章 1 订阅

订阅专栏

目前刚刚学了点爬虫，发现正则表达式的解析速度最快。下面是源码，复制粘贴就能用。2019年8月9日测试可用
需要安装的库：requests

import requests
import re


def parse_page(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"
    }
    response = requests.get(url,headers=headers)
    text=response.content.decode('utf-8')

    titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>',text,re.DOTALL)
    dynasties = re.findall(r'<p\sclass="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)
    authors = re.findall(r'<p\sclass="source">.*?<a.*?<a.*?>(.*?)</a>',text,re.DOTALL)
    poetries = re.findall(r'<div\sclass="contson".*?>(.*?)</div>',text,re.DOTALL)
    content=[]
    for poetry in poetries:
        poetry=re.sub('<p>|</p>','',poetry)
        poetry=re.sub('<br />','\n',poetry).strip()
        content.append(poetry)
    poems = zip(titles,dynasties,authors,content)
    for poem in poems:
        title,dynasty,author,content = poem
        print("《"+title+"》")
        print(dynasty+" · "+author)
        print(content+"\n")

def main():
    start = int(input("从这一页开始爬取1+："))
    end = int(input("到这一页结束10-："))
    base_url = "https://www.gushiwen.org/default_{}.aspx"
    for i in range(start,end+1):
        url = base_url.format(i)
        parse_page(url)

if __name__=="__main__":
    main()

运行截图：
古诗文

有意识的呼吸

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬取古诗词网正则表达式

目前刚刚学了点爬虫，发现正则表达式的解析速度最快。下面是源码，复制粘贴就能用。2019年8月9日测试可用需要安装的库：requestsimport requestsimport redef parse_page(url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleW...
复制链接

扫一扫