这个功能思来想去想了很久,终于实现了基本功能,自己基于别人的后台权限管理系统写了一个博客系统,其实博客系统只是一小部分,但今天只讲博客部分,其他详见:
RZSpider详见:https://blog.csdn.net/rico_zhou/article/details/83618255 https://www.rzspider.top U:testadmin P:testadmin
RZBlog详见:https://blog.csdn.net/rico_zhou/article/details/83617549 https://www.rzspider.top/rzblog
一.简单介绍
博客搬家简单来说就是把例如CSDN,博客园,开源中国等程序员博客聚集地所写的博客一键转移到自己的博客网站,当然是爬取自己的博客(别人的不是不能,而是不可以),并且保持样式尽量不便,图片也下载到自己的网站,以及其他一些设置。本文在前端页面博客搬家详情弹窗部分HTML参考了 张亚东博客但仅此而已,后台的框架代码均自写。
二.目标
将CSDN,博客园,开源中国,简书,以及今日头条,还有本地WORD文档以html形式搬家到自有网站,如需修改请使用HTML编辑器,如summernote,并保持基本样式不便,图片自转移。
三.使用框架
采用java语言,使用框架htmlunit爬取页面,使用jsoup解析页面,对于word文档则使用poi解析,辅助fastjson。
由于代码是从项目中截取,虽然可独立运行,但是可能会有一些无用代码,敬请见谅!
不使用代理,不考虑性能,仅为简单实现,见谅!
四.分篇
博客搬家系列(一)-简介:https://blog.csdn.net/rico_zhou/article/details/83619152
博客搬家系列(二)-爬取CSDN博客:https://blog.csdn.net/rico_zhou/article/details/83619509
博客搬家系列(三)-爬取博客园博客:https://blog.csdn.net/rico_zhou/article/details/83619525
博客搬家系列(四)-爬取简书文章:https://blog.csdn.net/rico_zhou/article/details/83619538
博客搬家系列(五)-爬取开源中国博客:https://blog.csdn.net/rico_zhou/article/details/83619561
博客搬家系列(六)-爬取今日头条文章:https://blog.csdn.net/rico_zhou/article/details/83619564
博客搬家系列(七)-本地WORD文档转HTML:https://blog.csdn.net/rico_zhou/article/details/83619573
博客搬家系列(八)-总结:https://blog.csdn.net/rico_zhou/article/details/83619599
五.搬家图片预览
完整源码请见github:https://github.com/ricozhou/blogmove