Python爬虫：爬取小说并存储到数据库

最新推荐文章于 2024-04-25 19:15:00 发布

weixin_33860553

最新推荐文章于 2024-04-25 19:15:00 发布

阅读量3.8k

点赞数 1

文章标签：数据库 python 爬虫

原文链接：https://yq.aliyun.com/articles/563516

版权

该博客详细记录了使用Python爬虫抓取小说网站的内容，并将其存储到数据库的过程。首先介绍了如何获取小说信息，然后阐述了数据库设计，包括创建novel和chapter两个表，并设置了外键关联。在存储过程中遇到'novelid'字段缺失默认值的问题，通过执行特定SQL语句解决了报错。最后，验证了数据成功存储到数据库。

摘要由CSDN通过智能技术生成

爬取小说网站的小说，并保存到数据库

第一步：先获取小说内容

 
          #!/usr/bin/python 
         
          # -*- coding: UTF-8 -*- 
         
          import  
          urllib2,re 
         
          domain  
          =  
          'http://www.quanshu.net' 
         
          headers  
          =  
          {
            
          "User-Agent" 
          :  
          "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36" 
         
          } 
         
          def  
          getTypeList(pn 
          = 
          1 
          ):  
          #获取分类列表的函数 
         
          req  
          =  
          urllib2.Request( 
          'http://www.quanshu.net/map/%s.html'  
          %  
          pn)  
          #实例将要请求的对象 
         
          req.headers  
          =  
          headers   
          #替换所有头信息 
         
          #req.add_header() #添加单个头信息 
         
          res  
          =  
          urllib2.urlopen(req)    
          #开始请求 
         
          html  
          =  
          res.read().decode( 
          'gbk' 
          )   
          #decode解码，解码成Unicode 
         
          reg  
          =  
          r 
          '<a href="(/book/.*?)" target="_blank">(.*?)</a>' 
         
          reg  
          =  
          re. 
          compile 
          (reg)  
          #增加匹配效率  正则匹配返回的类型为List 
         
          return  
          re.findall(reg,html) 
         
          def  
          getNovelList(url):   
          #获取章节列表函数 
         
          req  
          =  
          urllib2.Request(domain

最低0.47元/天解锁文章