scrapy+django爬取搭建自己的小说网站并部署

最新推荐文章于 2024-05-23 17:30:17 发布

置顶

GunnerXiang

最新推荐文章于 2024-05-23 17:30:17 发布

阅读量2k

点赞数 4

分类专栏： python 爬虫 django 文章标签： django python

本文链接：https://blog.csdn.net/qq_41620646/article/details/104890890

版权

scrapy+django爬取搭建自己的小说网站并部署

首发于个人博客 www.gunnerx.vip
(给个访问+1吧！）
项目github地址 https://github.com/GunnerX/mysite

先放出成果

网址: http://47.97.63.140/

在这里插入图片描述

前言

近期学习了django，想搭个网站练练手。思来想去，不知道做啥。电商秒杀购物车，感觉难度有点高，暂时还驾驭不来;做个博客把，没几篇文章，感觉难度有点低。最后决定做个小说网站。但是小说从哪来呢？当然是爬别人的啦。。随便找了个盗版免费的小说网站。

声明

本项目纯属个人练手。我只是个菜鸡，近期还忙于春招复习，所以自己也能感觉到代码有很多问题，如耦合过紧，重复严重，逻辑混乱等等，只是最近实在没太多精力在这些上面。所以准备等春招完闲下来，再慢慢重构 ~~flag~~

开发环境

ide: pycharm+python3.8

爬虫：scrapy

前端框架：bootstrap

后端框架：django2.2

数据库：mysql5.7

部署：阿里云ubuntu16.04服务器 docker+nginx+gunicorn容器化部署

爬虫

网站没什么反爬策略，使用scrapy框架后爬取逻辑也非常简单，就是在spider.py中异步爬取需要的数据存到定义好的items项目中，在pipelines中将爬好的数据存入数据库即可。夸一波scrapy，真滴好用。

# novel_spider.py部分代码

import scrapy
import requests
from ..items import NovelSpiderItem


class NovelSpider(scrapy.Spider):
    name = 'novelspider'
    start_urls = ['https://www.xxxx.tw/']

    # 访问网站首页，提取所有分类名并传给下一个处理的函数
    def parse(self, response):
        '''省略'''
            meta = {
   
                'category_name': category_name
            }
            yield scrapy.Request(category_url, meta=meta, callback=self.get_book)

    # 访问每个分类页，提取所有的小说名并传给下一个处理的函数
    def get_book(self, response):
        '''省略'''
            meta.update({
   
                'book_name': book_name
            })
            yield scrapy.Request(book_url, meta=meta, callback=self.get_chapter)
		
    # 访问每个小说详情页，提取小说的作者，分类，简介，缩略图等信息和所有章节名并传给下一个处理的函数
    def get_chapter(self, response):
        '''省略'''
            meta.update({
   
                'author': author,
                'intro': intro,
                'image': image,
                'chapter_name': chapter_name,
                'number': number
            })
            yield scrapy.Request(chapter_url, meta=meta, callback=self.get_content)
		
    # 访问每一个章节页，提取章节详情并加上前面所有提取到的所有信息传给items供后续处理
    def get_content(self, response):
        '''省略'''
        meta.update({
   
            'content'

最低0.47元/天解锁文章

GunnerXiang

关注

4
点赞
踩
24

收藏

觉得还不错? 一键收藏
4
评论
scrapy+django爬取搭建自己的小说网站并部署

scrapy+django爬取搭建自己的小说网站并部署首发于个人博客 https://gunnerx.github.io/ (给个访问+1吧！）项目github地址 https://github.com/GunnerX/mysite先放出成果网址: http://47.97.63.140/前言近期学习了django，想搭个网站练练手。思来想去，不知道做啥。电商秒杀购物车，感...
复制链接

扫一扫