scrapy+django爬取搭建自己的小说网站并部署

scrapy+django爬取搭建自己的小说网站并部署

首发于个人博客 www.gunnerx.vip
(给个访问+1吧!)
项目github地址 https://github.com/GunnerX/mysite

先放出成果

网址: http://47.97.63.140/

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

前言

近期学习了django,想搭个网站练练手。思来想去,不知道做啥。电商秒杀购物车,感觉难度有点高,暂时还驾驭不来;做个博客把,没几篇文章,感觉难度有点低。最后决定做个小说网站。但是小说从哪来呢?当然是爬别人的啦。。随便找了个 盗版 免费的小说网站。

声明

本项目纯属个人练手。我只是个菜鸡,近期还忙于春招复习,所以自己也能感觉到代码有很多问题,如耦合过紧,重复严重,逻辑混乱等等,只是最近实在没太多精力在这些上面。所以准备等春招完闲下来,再慢慢重构 flag

开发环境

ide: pycharm+python3.8

爬虫:scrapy

前端框架:bootstrap

后端框架:django2.2

数据库:mysql5.7

部署:阿里云ubuntu16.04服务器 docker+nginx+gunicorn容器化部署

爬虫

网站没什么反爬策略,使用scrapy框架后爬取逻辑也非常简单,就是在spider.py中异步爬取需要的数据存到定义好的items项目中,在pipelines中将爬好的数据存入数据库即可。夸一波scrapy,真滴好用。

# novel_spider.py部分代码

import scrapy
import requests
from ..items import NovelSpiderItem


class NovelSpider(scrapy.Spider):
    name = 'novelspider'
    start_urls = ['https://www.xxxx.tw/']

    # 访问网站首页,提取所有分类名并传给下一个处理的函数
    def parse(self, response):
        '''省略'''
            meta = {
   
                'category_name': category_name
            }
            yield scrapy.Request(category_url, meta=meta, callback=self.get_book)

    # 访问每个分类页,提取所有的小说名并传给下一个处理的函数
    def get_book(self, response):
        '''省略'''
            meta.update({
   
                'book_name': book_name
            })
            yield scrapy.Request(book_url, meta=meta, callback=self.get_chapter)
		
    # 访问每个小说详情页,提取小说的作者,分类,简介,缩略图等信息和所有章节名并传给下一个处理的函数
    def get_chapter(self, response):
        '''省略'''
            meta.update({
   
                'author': author,
                'intro': intro,
                'image': image,
                'chapter_name': chapter_name,
                'number': number
            })
            yield scrapy.Request(chapter_url, meta=meta, callback=self.get_content)
		
    # 访问每一个章节页,提取章节详情并加上前面所有提取到的所有信息传给items供后续处理
    def get_content(self, response):
        '''省略'''
        meta.update({
   
            'content'
  • 4
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值