Python 爬虫入门-爬取拉勾网实战

这几天学习了 python 爬虫的入门知识,也遇到很多坑,开个贴记录一下


基本原理


Python 爬虫基本要具备以下功能:(参考此回答

  1. 向服务器发送请求,服务器响应你的请求。(你可能需要了解:网页的基本知识)
  2. 从抓取到的网页中提取出需要的数据。(你可能需要了解:正则表达式Beautifulsoup
  3. 保存数据并继续爬取下一个网站。

当然,有以上功能还是不够的,你还需要与网站反爬策略斗智斗勇:(参考此回答

  1. 构造合理的HTTP请求头
  2. 设置cookie
  3. 正常的时间访问路径
  4. 注意隐含输入字段值
  5. 避开蜜罐
  6. 使用远程服务器来避免IP封锁

当然以上我还不怎么会。


项目实践

可以通过以下2个项目练手

  1. 豆瓣电影TOP250
    这个项目比较容易,代码复制过来,大概理解代码的意思,然后跑的过程也比较顺利。

  2. 爬取拉勾网页面1 页面2 页面3
    这个项目就比较难了,我也遇到比较多的坑,好在大都解决了。

话不多说,我们开始吧

爬取拉勾网实战

借用一下@ _知几 的图

借用一下@ _知几 的图,按 F12 查看页面源码,在 NETWORK 标签中可以分析网站的请求响应过程,这里看到 NETWORK 标签下 TYPE XHR 里有 companyAjax.json 和 posi

  • 5
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值