笔者有话说:针对大多数电商类的望着那而言,其信息偷明度与时效性不言而喻,同样,他的反爬机制也相当到位,这里遇到的常见的反爬手段无非就是cookie跟refer字段,cookie动态加载的信息尤其的恶心,在不用selenium进行破解的时候,那过程简直了。。。(某直聘网站还定点封ip大概请求次数超过三次你就没了…)而代理ip这种东西吧。。。免费的大多数不能用或者失效奇快无比(这里指高匿代理ip),等这段时间过了(笔者六级跟考研一轮复习完了)一定抽出时间好好玩玩selenium跟scrapy,现在就算了,办法虽然愚蠢,总比没有强,为了针对白嫖伸手党,笔者代码中有惊喜哦~~
先来康康拉勾网的:
‘’’
网址为:https://www.lagou.com/,爬取内容为关于数据挖掘工程师的相关招聘信息,
爬取内容为职位,公司全称、城市、月薪、学历、工作经验和岗位优势,
至少爬取50家公司,将这些存入Excel文件中,文件后缀为.xlsx。
‘’’