知乎搜索关键字爬取相关图片

代码github地址

程序功能:填写搜索关键字,爬虫就会访问知乎搜索页面并处理返回结果,提取标题、url、点赞数、评论数存储到MongoDB数据库中,然后再依次爬取刚才得到的所有url,获取url中所有内容(广告图片不会获取)图片地址。可以选择下载,默认不下载。只保存图片url到txt文件中。

爬取知乎时发现,知乎好像对爬虫很宽容,并没有很难的加密参数,也没有ip频繁检测(不过我并没有加多线程或者异步,可能限制比较松吧),相对于以前的爬虫而言,得到数据的过程并没有什么变化,无非就是看看浏览器F12的参数。

唯一的区别在于知乎的数据量很大,10条消息的ajax 100多k,这是在以前的爬取中没有遇到的,因为第一次遇到这么大的数据吧,耗费的时间有点多,不过操作一遍之后,还是很轻松就拿到想要的内容的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值