知乎爬取的要点

  1. 搜索
  2. 浏览器登录
  3. 找到request url,一般是jspn数据,可在response一栏浏览返回值
  4. 要登录才能爬取的数据,单独将该url复制浏览,并在改网页查找cookie,并及时更新,会变
  5. user-agent
  6. 利用json. cn网站查看改json数据结构,寻找key值
  7. 总结不同结构数据的区别,在写代码时区分开
  8. python 内自定定义函数的输入变量和返回变量很好用,要灵活使用,特别是将内容储存到list[]的时候,方便最后储存到excel不至于一坨
  9. 一般是在主函数給一个空列表,作为输入变量到def,在del内存好数据后再返回主函数,供下一次继续输入def使用,前面的数据也还在
    10.读取和储存excel:pandas,或者xlsd
  10. request和json是要登录才能爬取的必备
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值