代码放在 GitHub 上了,朋友们可以戳一下看看,帮我引引流,感谢各位。
https://github.com/daming98/PersonalToolsByDaming/tree/master/SinaBlogCrawler
描述:突然怀念起当年扒偶像博客的时光,所以写了个爬虫扒许嵩的博客,不过他已经好多年没写过博客了。
怎么使用:
- 打开你想爬取的某个博客里最新的一篇博文,复制这篇博文的链接。
- 将vae_blog.py里的
start
变量的值改为某篇博文的链接,这篇博文之前发布的全部博文都将保存到txt文件里。
PS:虽然名字叫vae_blog.py,其实谁的博文都能爬哈哈。
关于详细解释代码,做个教程之类的东西出来,等我有空了再搞。