Python使用simplified-scrapy下载小说的例子

本文介绍了如何使用Python的simplified-scrapy库下载小说。在安装必要的依赖后,爬取的小说数据会以json格式保存在data文件夹下的tianshu-spider_obj.json。为了整理数据顺序并将其转换为txt格式,文章提供了相应的处理方法。
摘要由CSDN通过智能技术生成

首先安装依赖的包:
pip install simplified-scrapy
Python代码如下:

import io,json
from simplified_scrapy.spider import Spider, SimplifiedDoc 
from simplified_scrapy.core.utils import getTimeNow,printInfo,appendFile

class TianshuSpider(Spider):
  concurrencyPer1s=1
  name = 'tianshu-spider'
  start_urls = []#在初始化函数中初始化start_urls
  def __init__(self):
    i=1
    while(i<=33):
      self.start_urls.append('https://m.biqudao.cc/0/779_{}/'.format(i))
      i+=1
    Spider.__init__(self,self.name) #necessary,调用基类初始化方法完成系统初始化
  #重写抽取方法
  def extract(self, url, html, models, modelNames):
    try:
      html = self.removeScripts(html)
      lst=[]
      data=[]
      ele = None
      #判断页面是列表还是小说内容
      if(url["url"].find('https://m.biqudao.cc/0/779_')==0):
        doc = SimplifiedDoc(html)
        lstA = doc.listA(url[
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值