Bs4解析__爬取《论语》

最新推荐文章于 2024-08-15 01:55:01 发布

小西--lx

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量1k

点赞数

文章标签： python chrome html

本文链接：https://blog.csdn.net/m0_57675076/article/details/122024325

版权

本文介绍了如何利用Python的BeautifulSoup库（Bs4）从古诗文网下载并解析《论语》的全文。首先，通过Chrome获取URL并发起请求，接着创建一个txt文件用于储存内容。然后，遍历每个文章详情页，解析页面中的章节内容，并保存到txt文件中。最后，提供了完整的爬虫代码实现。

摘要由CSDN通过智能技术生成

在古诗文网下载论语全文

url

https://so.gushiwen.cn/guwen/book_46653FD803893E4F75696240258265D2.aspx

请求

headers = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Mobile Safari/537.36 Edg/96.0.1054.29"}

url = 'https://so.gushiwen.cn/guwen/book_46653FD803893E4F75696240258265D2.aspx'
page_text= requests.get(url=url,headers=headers).text

实例化BeautifulSoup对象

soup = BeautifulSoup(page_text,'lxml')
span_list = soup.select('.bookcont > ul > span')

创造论语txt文件

fp=open('论语.txt','w',encoding= 'utf-8')

对应文章详情页的url

for span in span_list:
    title = span.a.string
    zj_url = span.a['href']

对详情页发起请求，对章节内容进行解析

zj_url_text = requests.get(url=zj_url,headers=headers).tex

最低0.47元/天解锁文章

小西--lx

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Bs4解析__爬取《论语》

在古诗文网下载论语全文urlhttps://so.gushiwen.cn/guwen/book_46653FD803893E4F75696240258265D2.aspx请求headers = { "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Mobile Safari/
复制链接

扫一扫