scrapy+django爬取搭建自己的小说网站并部署
首发于个人博客 www.gunnerx.vip
(给个访问+1吧!)
项目github地址 https://github.com/GunnerX/mysite
先放出成果
前言
近期学习了django,想搭个网站练练手。思来想去,不知道做啥。电商秒杀购物车,感觉难度有点高,暂时还驾驭不来;做个博客把,没几篇文章,感觉难度有点低。最后决定做个小说网站。但是小说从哪来呢?当然是爬别人的啦。。随便找了个 盗版 免费的小说网站。
声明
本项目纯属个人练手。我只是个菜鸡,近期还忙于春招复习,所以自己也能感觉到代码有很多问题,如耦合过紧,重复严重,逻辑混乱等等,只是最近实在没太多精力在这些上面。所以准备等春招完闲下来,再慢慢重构 flag
开发环境
ide: pycharm+python3.8
爬虫:scrapy
前端框架:bootstrap
后端框架:django2.2
数据库:mysql5.7
部署:阿里云ubuntu16.04服务器 docker+nginx+gunicorn容器化部署
爬虫
网站没什么反爬策略,使用scrapy框架后爬取逻辑也非常简单,就是在spider.py中异步爬取需要的数据存到定义好的items项目中,在pipelines中将爬好的数据存入数据库即可。夸一波scrapy,真滴好用。
# novel_spider.py部分代码
import scrapy
import requests
from ..items import NovelSpiderItem
class NovelSpider(scrapy.Spider):
name = 'novelspider'
start_urls = ['https://www.xxxx.tw/']
# 访问网站首页,提取所有分类名并传给下一个处理的函数
def parse(self, response):
'''省略'''
meta = {
'category_name': category_name
}
yield scrapy.Request(category_url, meta=meta, callback=self.get_book)
# 访问每个分类页,提取所有的小说名并传给下一个处理的函数
def get_book(self, response):
'''省略'''
meta.update({
'book_name': book_name
})
yield scrapy.Request(book_url, meta=meta, callback=self.get_chapter)
# 访问每个小说详情页,提取小说的作者,分类,简介,缩略图等信息和所有章节名并传给下一个处理的函数
def get_chapter(self, response):
'''省略'''
meta.update({
'author': author,
'intro': intro,
'image': image,
'chapter_name': chapter_name,
'number': number
})
yield scrapy.Request(chapter_url, meta=meta, callback=self.get_content)
# 访问每一个章节页,提取章节详情并加上前面所有提取到的所有信息传给items供后续处理
def get_content(self, response):
'''省略'''
meta.update({
'content'