爬取小说的简易python爬虫

学习一段时间的python之后决定写些东西  刚好自己喜欢看小说就像写一段爬取小说的爬虫,这里以笔趣阁的小说为例。

我发现笔趣阁的每个小说的目录源代码基本都包含其所有的章节的url,所以这段代码是先获取所有的url然后逐页获取其文本

并下载到本地,使用时只需要改变小说目录的url就可爬取不同小说,还算简便,不多说上代码。

import requests #这里以小说天地霸气诀为例
import re
import bs4
import os
path=open("天地霸气诀.txt",'a',encoding='utf-8')
biaoti=''

r=requests.get('https://www.biquge.cm/0/536/')
r.encoding=r.apparent_encoding
demo=r.text
soup=bs4.BeautifulSoup(demo,"html.parser")
xx=soup("a")
bb=[]
s=0
for i in xx:
    s+=1
    if s >= 25:
        bb.append(i["href"])
        #print(i["href"])
for i in bb:
    url='https://www.biquge.cm'+i
    r=requests.get(url)
    r.encoding=r.apparent_encoding
    demo=r.text
    soup=bs4.BeautifulSoup(demo,"html.parser")
    if biaoti == soup.title.get_text():
        continue
    title='\t\t'+soup.title.get_text()+'\n'
    biaoti = soup.title.get_text()
    path.write(title)
    print(title)
    aa=soup.find_all('div',{'id':'content'})
    ss=aa[0].get_text()
    path.write(ss)
path.close()


  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值