谢邀,看了下您提供的网站,比较简单可以自己处理,如果想将整个网站爬取下来并进行存储,大概需要目前一下几张表【存储方式以mysql数据库为例子】
你需要存储以下东西
主标题表:存储每一个分类
文章表:关联主标题,用以确定文章是属于哪个标题分类下的,文章表中应有两个或者多个字段用以存储【视频存储路径,音频存储路径,图片存储路径】的文件服务器对应路径【用以未来复现整个网站所有详情以及框架所用】
辅助点踩表:用于存储点赞或者踩
辅助评论表:关联文章来存储每篇文章的评论信息
标签表:存储每篇文章被赋予的标签。
大概按照以上方法与结构进行存储可以很好地保存起整个网站的所有信息,并能完整的还原回来。
至于你说爬取这个网站的问题
简单算了一下总计百十来页,即使翻个几十倍也远远超不过几十万页,如果爬虫写好执行的话大概在10分钟内爬取存储完毕[时间用时久概率为异地存储大文件导致,不过这里可以写成异步的]
解决方案
语言:Python
框架:scrapy[快速构建] grequests 或者 aiohttp 或者 requests配合threading
注意:scrapy自己考虑的事情比较少 后面的需要自己处理和调度的事情比较多相对难
代理问题:因为用时较短,可以选择使用小幻 蜻蜓 讯代理里面的免费代理,复制出几个足够使用
存储:异步存储 需要应用文件服务器,或者全部东西存本地
结语:做这个玩意就没必要花钱了,如果有基础花三五天时间看下scrapy和爬虫原理足够搞定这个网站,如果没有基础一个月看个Python基础加爬虫也绰绰有余,所有材料在网上都可以找到,问题不大希望对你有帮助。
补充:另外推荐你看一本书,可以很好的宏观了解一下Python与爬虫,之前入门应急爬虫时我也是抽时间看的这本书名字叫做《python3网络爬虫实战》崔写的 很棒网上有资源,如果喜欢纸质的话可以直接去各个平台买下面也有链接[另外双十一红包走一波吧]