scrapy爬虫实践之抓取拉钩网招聘信息(1)

趁着学习计划空白的时间,我决定自己创建一个project练手爬虫,刚好可以实践之前学习过的scrapy

项目内容:
1.抓取拉钩网下,关键字为【数据分析】【上海】的所有招聘信息
2.将抓取的信息保存到本地数据库
3.对抓取到的信息进行数据清洗
4.对数据进行分析,包括筛选出符合需求的信息,并给出具体的可视化结果与分析结论

使用工具:仅限使用scrapy

项目拟定好后,首先进入My_Test工作目录,创建爬虫项目

scrapy startproject newlagou

然后进入建立好的项目目录中,建立自己的爬虫。新建的文件在spider目录下,实际上这个爬虫文件也可以手动建立

scrapy genpider zhaopingye lagou.com

随后,通过上网参考其他大神的代码,完善自己的爬虫项目。
首先,在items中创建自己想要爬取的数据内容,这个地方暂时只创建了一项,我想要获取搜索“商业数据分析”后弹出的清单中所有的超链接(为之后爬取每一个页面做铺垫)

class NewlagouItem(scrapy.Item):
    job_web = scrapy.Field()
    pass

pipelines暂时不设置。(事实上,在学习的过程中设置过了pipeline,这个文件可以帮助你更好的保存爬取出的数据)
settings的设置比较重要,这个地方要设置好防爬取的一些内容,包括headers和爬取速率、反重定向等。这个地方的坑比

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值