爬取小说的简易python爬虫

最新推荐文章于 2023-11-15 17:03:49 发布

努力吧小白

最新推荐文章于 2023-11-15 17:03:49 发布

阅读量514

点赞数 2

分类专栏： python杂项

本文链接：https://blog.csdn.net/jhgogogo/article/details/78995600

版权

python杂项专栏收录该内容

1 篇文章 0 订阅

订阅专栏

学习一段时间的python之后决定写些东西刚好自己喜欢看小说就像写一段爬取小说的爬虫，这里以笔趣阁的小说为例。

我发现笔趣阁的每个小说的目录源代码基本都包含其所有的章节的url，所以这段代码是先获取所有的url然后逐页获取其文本

并下载到本地，使用时只需要改变小说目录的url就可爬取不同小说，还算简便，不多说上代码。

import requests #这里以小说天地霸气诀为例
import re
import bs4
import os
path=open("天地霸气诀.txt",'a',encoding='utf-8')
biaoti=''

r=requests.get('https://www.biquge.cm/0/536/')
r.encoding=r.apparent_encoding
demo=r.text
soup=bs4.BeautifulSoup(demo,"html.parser")
xx=soup("a")
bb=[]
s=0
for i in xx:
    s+=1
    if s >= 25:
        bb.append(i["href"])
        #print(i["href"])
for i in bb:
    url='https://www.biquge.cm'+i
    r=requests.get(url)
    r.encoding=r.apparent_encoding
    demo=r.text
    soup=bs4.BeautifulSoup(demo,"html.parser")
    if biaoti == soup.title.get_text():
        continue
    title='\t\t'+soup.title.get_text()+'\n'
    biaoti = soup.title.get_text()
    path.write(title)
    print(title)
    aa=soup.find_all('div',{'id':'content'})
    ss=aa[0].get_text()
    path.write(ss)
path.close()

努力吧小白

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬取小说的简易python爬虫

学习一段时间的python之后决定写些东西刚好自己喜欢看小说就像写一段爬取小说的爬虫，这里以笔趣阁的小说为例。我发现笔趣阁的每个小说的目录源代码基本都包含其所有的章节的url，所以这段代码是先获取所有的url然后逐页获取其文本并下载到本地，使用时只需要改变小说目录的url就可爬取不同小说，还算简便，不多说上代码。import requests #这里以小说天地霸气诀为例impor
复制链接

扫一扫