爬虫自学——爬取古诗词网唐诗三百首

最新推荐文章于 2024-06-26 15:07:59 发布

菜比码农

最新推荐文章于 2024-06-26 15:07:59 发布

阅读量2.5k

点赞数 4

文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/qq_55923194/article/details/121060181

版权

本文记录了一次使用Python爬虫技术从古诗词网站上抓取唐诗三百首的过程，详细介绍了爬虫的实现步骤和遇到的问题解决方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

from bs4 import BeautifulSoup as bs
import requests
import json

url='https://so.gushiwen.cn/gushi/tangshi.aspx'
header={
   
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36"
}
fp=requests.get(url=url,headers=header)
soup=bs(fp.text,'lxml')
re=soup.select('.typecont span')
url_can=[]
for each in re:
    each_url='https://so.gushiwen.cn'+each