学习一段时间的python之后决定写些东西 刚好自己喜欢看小说就像写一段爬取小说的爬虫,这里以笔趣阁的小说为例。
我发现笔趣阁的每个小说的目录源代码基本都包含其所有的章节的url,所以这段代码是先获取所有的url然后逐页获取其文本
并下载到本地,使用时只需要改变小说目录的url就可爬取不同小说,还算简便,不多说上代码。
import requests #这里以小说天地霸气诀为例
import re
import bs4
import os
path=open("天地霸气诀.txt",'a',encoding='utf-8')
biaoti=''
r=requests.get('https://www.biquge.cm/0/536/')
r.encoding=r.apparent_encoding
demo=r.text
soup=bs4.BeautifulSoup(demo,"html.parser")
xx=soup("a")
bb=[]
s=0
for i in xx:
s+=1
if s >= 25:
bb.append(i["href"])
#print(i["href"])
for i in bb:
url='https://www.biquge.cm'+i
r=requests.get(url)
r.encoding=r.apparent_encoding
demo=r.text
soup=bs4.BeautifulSoup(demo,"html.parser")
if biaoti == soup.title.get_text():
continue
title='\t\t'+soup.title.get_text()+'\n'
biaoti = soup.title.get_text()
path.write(title)
print(title)
aa=soup.find_all('div',{'id':'content'})
ss=aa[0].get_text()
path.write(ss)
path.close()