昨天,数据猿爬取到了笔趣小说一个近2735章的爽文小说,整个过程较为顺利。
今天,数据猿整理了一下代码,分享给大家。
目录如下:
[TOC]
第0步,准备本文运行环境:Python3.8,Pycharm;Win10系统
需要的库 :requests、bs4、re 、fake-useagent
整个爬虫的思路是找到目标小说的所有章节链接
根据所有的章节链接,构造小说内容的网址
爬取内容并保存
第1步,分析目标网页
浏览器内按F12,查看该小说章节页面的html,crtl+F来查询某一章节“开启神武印记”,从而找到章节链接所在的位置。
可以定位到章节所在的位置在body-div-div-div-d1-dd-a标签中,所以我们用
如法炮制,我们可以确定小说内容所在的网页。
第2步,解析页面
bs4解析章节页面
先用find_all选中dd标签,然后枚举find_all得到的列表,使用列表解析式分别选取其中的['href']链接和get_text()文本内容。得到一个元组,分别是链接和标题,用来生成每一章的内容。
# bs4解析
soup = BeautifulSoup(html, 'lxml')
all_link = [(link.a['href'],link.a.get_text()) for link in s