python爬虫之中古诗网

爬取网址https://www.gushiwen.org/default_1.aspx
爬虫代码

import requests
import re

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.113 Safari/537.36"
}

url = "https://www.gushiwen.org/default_1.aspx"

content = requests.get(url,headers= headers)
titles = re.findall('<div\sclass="cont".*?<b>(.*?)</b>',content.text,re.DOTALL)#re.DOTALL 默认情况下,.表示所有除了换行的字符,加上re.DOTALL参数后,就是真正的所有字符了,包括换行符(\n)
dynastyds = re.findall('<p\sclass="source".*?<a.*?>(.*?)</a>',content.text,re.DOTALL)
authoers = re.findall('<p\sclass="source.*?</a>.*?<a.*?>(.*?)</a>',content.text,re.DOTALL)
print(len(authoers))
print("="*20)
contents = re.findall('<div\sclass="contson".*?>(.*?)</div>',content.text,re.DOTALL)
print(contents)
for index,value in enumerate(contents):
    contents[index] = re.sub(r"<br />","",value).strip()
    contents[index] = re.sub(r"<.*?p>","",contents[index])
print("="*20)
print(contents)
print("="*20)
print(len(contents))

for t,d,a,c in zip(titles,dynastyds,authoers,contents):
    print(t)
    print("{}:{}".format(d,a))
    print(c)
    print("="*30)

执行结果如下
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值