爬取招聘网站实训

#创建爬虫项目
##搭建爬虫框架
1安装爬虫框架 pip install scrapy -i
2创建scrapy文件夹 scrapy startproject 加自拟文件名
在对应文件夹下有如下目录
scrapy.cfg:项目的配置文件,一般不用设置。此文件所在目录为项目根目录
item.py:保存爬取到数据的容器,在此文件中定义要爬取什么数据
pipelines.py:处理已经爬取到的数据。如:对数据进行去重或者保存到数据库,就在这个文件中定义
middlewares.py:中间件文件,用来对所有发出的请求、收到的响应或spider做全局性的自定义设置
setting.py:Scrapy爬虫框架的设置文件
spider文件夹:存放爬虫代码,定义爬虫的主要逻辑,可以在这个文件夹定义多个爬虫

##编写需要爬取的字段

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值