CSDN博客迁移至Hexo之同步CSDN博文到本地MD文件

夜班敲声-凌晨三点

动机

  自从我把Github+Hexo的博客“交给”Google之后,每天都有几十位的访客2333,访客少的原因有许多,一个是文章较少,二是百度虫子没有爬到我的页面,就会导致即就算直接搜索博客里面的内容,百度都不会返回我的地址,就这个情况我已经使用百度和谷歌去处理了,至于文章较少的问题,我打算做个博客迁移!
  我大三到现在的所有博客全部都在CSDN上,所以要对CSDN做一个文章导出功能,官方提供了工具,然而我昨天试了并不行。有博友自己提供了工具,是用python写的,本来打算用的,但是自己电脑没有装python,一时兴起决定用java写个小程序,自己动手丰衣足食,说干就干,整体的思路如下图:
大体的流程
使用Jsoup去获取页面并解析—>将对应html代码转换成MD文件存储到本地—>最后放到对应位置,执行hexo ghexo d命令发布到Github上

过程

解析CSDN

  比较庆幸的是CSDN并没有对“爬虫”做相关的处理,也就是说,我使用Jsoup获取页面并解析是没有任何限制的(至少我没有遇到),这里需要做个简单的逻辑来获取article/list页面的所有文章列表url包括摘要。在接着根据url将对应文章的内容结构化解析出来,代码如下

String url = HOST_URL + username + "/article/list/" + 1;
Document parse = Jsoup.parse(new URL(url), 5000);
Element element = parse.select("div#papelist span").get(
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值