【项目】古诗

import requests
import re

#开始要访问的,获取全部内容
def parse_page(url):
    headers={"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6776.400 QQBrowser/10.3.2577.400"}
    response =requests.get(url,headers)
    response.encoding='utf-8'
    text=response.text
    #爬取标题['a','b']
    titles=re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>',text,re.DOTALL)
    #爬取朝代\s=空格
    chaodais =re.findall(r'<p\sclass="source"><a.*?>(.*?)</a>',text)
    #作者
    authors =re.findall(r'<p\sclass="source">.*?<a.*>.*?<a.*?>(.*?)</a>',text)
    #内容
    neirs =re.findall(r'<div\sclass="contson".*?>(.*?)</div>',text,re.DOTALL)
    for nei in neirs:
        #sub(内容,替换)   strip()空格去掉
        x=re.sub(r'<.*?>',"",nei)
        # print(x.strip())

    list_pomes=[]
    #循环1:1合并字符串,{}
    for value in zip(titles,chaodais,authors,neirs):
        #a=[1,2,3]  和1,2,3=a
        title,chaodai,author,neir =value
        poem ={
            'title':titles,
            'chaodai':chaodais,
            'author':authors,
            'neir':neirs,
        }
        list_pomes.append(poem)
    for poem in list_pomes:
        print(poem)
        print('---'*40)

#网址
def main():
    url ='https://www.gushiwen.org/shiwen/'
    for x in range(1,10):
        url='https://www.gushiwen.org/shiwen/' %x
        #获取要访问
        parse_page(url)

if __name__ == '__main__':
    main()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值