批量下载知乎文章

最新推荐文章于 2024-06-15 08:32:50 发布

我真的爱发明

最新推荐文章于 2024-06-15 08:32:50 发布

阅读量3.1k

点赞数

分类专栏：下载文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014723479/article/details/120228652

版权

下载专栏收录该内容

4 篇文章 0 订阅

订阅专栏

简介
- 每个知乎答主都有退乎的梦想，但退乎前如果删光回答，则十分可惜。
- 而且自己关注的很多博主，下面的回答动辄成千上百，而知乎的搜索功能做的非常烂，不允许针对于用户搜索。假如从之后上网页端一页一页去翻的话，怕是眼睛都发瞎了，也未必能找到自己需要的回答。但假如说将这些文章下载到本地，在本地进行搜索的话，就会非常方便。
- 这是一个GitHub上面的库
- GitHub - njzjz/zhihubackup: 退乎前备份知乎回答
- 可以直接下载下来HTML文件，并且将文件夹保存在上层目录上，这个是叶峻峣的回答，我推荐使用这个
- https://github.com/L-M-Sherlock/zhihubackup
使用
- 使用方法其实非常简单，只需要把上面的用户名字段改成自己想要爬取的用户名ID即可。
- 之后就可以开始自动爬取文章到本地了
- 不过需要注意的是，这个上面的文章使用的图床依然是知乎本自身的图床。假如说知乎的这个图创清理之后，本地用户也不能访问了
- 而且有些ID可以直接爬下来，而且有些ID则没有办法爬下来
  - 会一直在那个页面上转来转去，但就是没有效果
报错
- zhihubackup为什么有些用户的ID不能爬下来？
  - ID下面有横杠的，不能爬下来
    - 比如 wang-rui-en，这点我觉得做的挺不好，因为带横杠是默认用户的标配啊，只要没有改过用户名，全是带横杠的
    - [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SBE01bec-1631274315441)(https://raw.githubusercontent.com/LvShuaiChao/blog_img/main/20210910194032.png)]
  - 可以考虑使用这个修改过的仓库，就不会报这个问题了
  - https://github.com/L-M-Sherlock/zhihubackup
  - 假如还是爬不下来的话，就把这个仓库再重新下载一下，再输入ID就可以爬了，record文件给删除掉
    - 这一点我也觉得很神奇，就是一个仓库下载下来之后只能爬去一个用户ID，再爬取其他的用户ID就成功不了了
    - record文件上面记录了上次爬取到的进度。假如不删除的话，还是按照上次的进度来爬去，不同用户的记录进度是不一样的，那么就会报错
  - 知乎有对应的反爬机制，假如一段时间里面频繁访问的话，有可能会报错，不过不用太担心。record文件记录了当前爬到哪儿了，要是出错的话，就过一段时间再爬取即可
    - [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mib3qk6K-1631274315443)(https://raw.githubusercontent.com/LvShuaiChao/blog_img/main/20210910194033.png)]
    - [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R93O68ck-1631274315444)(https://raw.githubusercontent.com/LvShuaiChao/blog_img/main/20210910194034.png)]

我真的爱发明

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
批量下载知乎文章

简介每个知乎答主都有退乎的梦想，但退乎前如果删光回答，则十分可惜。而且自己关注的很多博主，下面的回答动辄成千上百，而知乎的搜索功能做的非常烂，不允许针对于用户搜索。假如从之后上网页端一页一页去翻的话，怕是眼睛都发瞎了，也未必能找到自己需要的回答。但假如说将这些文章下载到本地，在本地进行搜索的话，就会非常方便。这是一个GitHub上面的库 GitHub - njzjz/zhihubackup: 退乎前备份知乎回答可以直接下载下来HTML文件，并且将文件夹保存在上层目录上，这个是叶峻峣的回答，我.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。