批量下载知乎文章

  • 简介
    • 每个知乎答主都有退乎的梦想,但退乎前如果删光回答,则十分可惜。
    • 而且自己关注的很多博主,下面的回答动辄成千上百,而知乎的搜索功能做的非常烂,不允许针对于用户搜索。假如从之后上网页端一页一页去翻的话,怕是眼睛都发瞎了,也未必能找到自己需要的回答。但假如说将这些文章下载到本地,在本地进行搜索的话,就会非常方便。
    • 这是一个GitHub上面的库
    • GitHub - njzjz/zhihubackup: 退乎前备份知乎回答
    • 可以直接下载下来HTML文件,并且将文件夹保存在上层目录上,这个是叶峻峣的回答,我推荐使用这个
    • https://github.com/L-M-Sherlock/zhihubackup
  • 使用
    • 使用方法其实非常简单,只需要把上面的用户名字段改成自己想要爬取的用户名ID即可。
    • 之后就可以开始自动爬取文章到本地了
    • 不过需要注意的是,这个上面的文章使用的图床依然是知乎本自身的图床。假如说知乎的这个图创清理之后,本地用户也不能访问了
    • 而且有些ID可以直接爬下来,而且有些ID则没有办法爬下来
      • 会一直在那个页面上转来转去,但就是没有效果
  • 报错
    • zhihubackup为什么有些用户的ID不能爬下来?
      • ID下面有横杠的,不能爬下来
        • 比如 wang-rui-en,这点我觉得做的挺不好,因为带横杠是默认用户的标配啊,只要没有改过用户名,全是带横杠的
        • [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SBE01bec-1631274315441)(https://raw.githubusercontent.com/LvShuaiChao/blog_img/main/20210910194032.png)]
      • 可以考虑使用这个修改过的仓库,就不会报这个问题了
      • https://github.com/L-M-Sherlock/zhihubackup
      • 假如还是爬不下来的话,就把这个仓库再重新下载一下,再输入ID就可以爬了,record文件给删除掉
        • 这一点我也觉得很神奇,就是一个仓库下载下来之后只能爬去一个用户ID,再爬取其他的用户ID就成功不了了
        • record文件上面记录了上次爬取到的进度。假如不删除的话,还是按照上次的进度来爬去,不同用户的记录进度是不一样的,那么就会报错
      • 知乎有对应的反爬机制,假如一段时间里面频繁访问的话,有可能会报错,不过不用太担心。record文件记录了当前爬到哪儿了,要是出错的话,就过一段时间再爬取即可
        • [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mib3qk6K-1631274315443)(https://raw.githubusercontent.com/LvShuaiChao/blog_img/main/20210910194033.png)]
        • [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R93O68ck-1631274315444)(https://raw.githubusercontent.com/LvShuaiChao/blog_img/main/20210910194034.png)]
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值