博客本来用的是 github pages,但貌似由于百度爬虫太疯狂,被 github 给 ban 掉了。根据 marketmechian 的数据,在中国大陆搜索引擎界,百度还是占了半壁江山:
- Baidu: 67.09%
- Sogou: 18.75%
- Shenma: 6.84%
- Google: 2.64%
- bing: 2.6%
- Other: 2.08%
而作为一个中文博客,还是希望能够被更多的国内用户看到,因此一直在寻求一个使得百度爬虫自动爬取博客的方法。偶然间在浏览博客时,看到了有人在推荐 http://zeit.co 这个托管平台,使用了下,发现真是个非常棒的静态代码托管+CI Serverless Function 平台,在这里推荐给大家。
作者:青藤木鸟 https://www.qtmuniao.com/2020/03/15/hexo-to-zeit-co/, 转载请注明出处
几种方法
网上有很多方法可以使百度爬虫爬取博客页面,总结起来主要有:
- CDN,利用云服务提供商将 blog 多做几个镜像。
- 换托管平台,比如说国内的代码托管平台。
- 自行使用 VPS 托管。
CDN 比较贵,又不想换托管平台,VPS