- 数据限制
大兴安岭没有搞python的,那我们去全国看看吧:
这里差一点就把我坑了,我开始天真的以为,全国只有300条(一页30条,共10也)python招聘信息。
然后我回过头去看西安的,也只有10页,然后想着修改下他的get请求parameters,没卵用。
这有啥用?仔细想…一方面可以做到放置咱们爬虫一下获取所有的数据,但这只是你自作多情,这东西是商机!
每天那么多的商家发布招聘信息,进入不了top100,别人想看都看不到你的消息,除非搜索名字。那么如何排名靠前?答案就是最后俩字,靠钱。你是Boss直聘的会员,你发布的就会靠前…
- 偷换概念
依旧先看图:
我搜索的是ruby,你资料不够,其他来凑…
- ip解析
老套路,再来看一张图:
Boss直聘的服务器里,留着我的痕迹,多么骄傲的事情啊。你们想不想和我一样?只需要3秒钟…
三秒钟内你的访问量能超过1000,妥妥被封!
- 设置不同的User-Agent
使用pip install fake-useragent安装后获取多种User-Agent,但其实本地保存上几十个,完全够了…
- 不要太夯(大力)
适当的减慢你的速度,别人不会觉得是你菜…别觉得一秒爬几千比一秒爬几百的人牛逼(快枪手子弹打完的早…不算开车吧?)。
- 购买付费的代理
为什么我跳过了说免费的代理?因为现在搞爬虫的人太多了,免费的基本早就列入各大网站的黑名单了。
所以解析到的原始数据如下:
先来看看python的薪酬榜:
看一下西安的排位,薪资平均真的好低…