Python使用simplified-scrapy下载小说的例子

最新推荐文章于 2021-12-23 11:00:07 发布

dabingsou

最新推荐文章于 2021-12-23 11:00:07 发布

阅读量1k

点赞数

文章标签： Python scrapy 爬虫

本文链接：https://blog.csdn.net/dabingsou/article/details/102676618

版权

本文介绍了如何使用Python的simplified-scrapy库下载小说。在安装必要的依赖后，爬取的小说数据会以json格式保存在data文件夹下的tianshu-spider_obj.json。为了整理数据顺序并将其转换为txt格式，文章提供了相应的处理方法。

摘要由CSDN通过智能技术生成

首先安装依赖的包：
pip install simplified-scrapy
Python代码如下：

import io,json
from simplified_scrapy.spider import Spider, SimplifiedDoc 
from simplified_scrapy.core.utils import getTimeNow,printInfo,appendFile

class TianshuSpider(Spider):
  concurrencyPer1s=1
  name = 'tianshu-spider'
  start_urls = []#在初始化函数中初始化start_urls
  def __init__(self):
    i=1
    while(i<=33):
      self.start_urls.append('https://m.biqudao.cc/0/779_{}/'.format(i))
      i+=1
    Spider.__init__(self,self.name) #necessary，调用基类初始化方法完成系统初始化
  #重写抽取方法
  def extract(self, url, html, models, modelNames):
    try:
      html = self.removeScripts(html)
      lst=[]
      data=[]
      ele = None
      #判断页面是列表还是小说内容
      if(url["url"].find('https://m.biqudao.cc/0/779_')==0):
        doc = SimplifiedDoc(html)
        lstA = doc.listA(url[