python爬取小说代码bs4和_python的requests和bs4库爬取小说全文

昨天,数据猿爬取到了笔趣小说一个近2735章的爽文小说,整个过程较为顺利。

今天,数据猿整理了一下代码,分享给大家。

目录如下:

[TOC]

第0步,准备本文运行环境:Python3.8,Pycharm;Win10系统

需要的库 :requests、bs4、re 、fake-useagent

整个爬虫的思路是找到目标小说的所有章节链接

根据所有的章节链接,构造小说内容的网址

爬取内容并保存

第1步,分析目标网页

浏览器内按F12,查看该小说章节页面的html,crtl+F来查询某一章节“开启神武印记”,从而找到章节链接所在的位置。

可以定位到章节所在的位置在body-div-div-div-d1-dd-a标签中,所以我们用

如法炮制,我们可以确定小说内容所在的网页。

第2步,解析页面

bs4解析章节页面

先用find_all选中dd标签,然后枚举find_all得到的列表,使用列表解析式分别选取其中的['href']链接和get_text()文本内容。得到一个元组,分别是链接和标题,用来生成每一章的内容。

# bs4解析

soup = BeautifulSoup(html, 'lxml')

all_link = [(link.a['href'],link.a.get_text()) for link in s

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值