python scrapy爬取智联招聘的公司和职位信息（一）

最新推荐文章于 2023-03-29 09:48:39 发布

loonslo_

最新推荐文章于 2023-03-29 09:48:39 发布

阅读量1.5k

点赞数

分类专栏：爬虫文章标签：爬虫 python 招聘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40508682/article/details/89109579

版权

本文介绍了如何使用Scrapy框架创建并运行爬虫，目标是抓取智联招聘网站上的公司和职位信息，以揭露虚假招聘信息。作者在创建项目后，详细讲解了如何设置爬虫规则、添加请求头以应对网站验证，并展示了运行爬虫的基本步骤。

摘要由CSDN通过智能技术生成

这个帖子先暂时放弃。本以为和拉钩一样全是静态页面，结果在写item的时候，发现网页有点意思，突然有个大胆的想法，想试试…先埋坑，后面在填坑

缘由: 最近在找工作发现智联和51上太多培训机构的虚假招聘信息，于是乎打算写个爬虫看看，培训机构到底发布了多少虚假岗位

一、创建scrapy项目

安装scrapy
在终端/cmd输入
```
pip install scrapy
```
创建项目
**IDE推荐使用pycharm
在cmd/终端输入（zhaopin为项目的名称）
```
 scrapy startproject zhaopin
 （zhaopin为项目的名称）
```
接着进入zhaopin文件夹目录
```
cd zhaopin
scrapy genspider -t crawl zhaopin www.zhaopin.com
```
-t crawl是使用crawl模板， scrapy默认提供了4种模板，我们要进行全站爬虫，使用crawl模板是最合适的，zhaopin是爬虫名称，后面是的我们要爬虫的网站网址域名(这个一定要写对，否则可能被rule过滤掉）

现在我们看下zhaopin文件夹下的目录结构

我们的爬虫一般放在spiders目录下。其他文件用处暂时不管，后续我会说明的
```
zhaopin
	│   scrapy.cfg   
	│
	└───   zhaopin
			   │   items.py
			   │   middlewares.py
			   │   pipelines.py
		       │   settings.py
			   └───   spiders
			   			 │   zhaopin.py
 		       
```

二、编写运行scrapy爬虫

确认需求
根据我们的爬虫目标，我们主要获取这些信息

职业页面：职位的url，职位标题，工资，地区，学历，招聘人数
公司页面：公司的url，公司名称，规模，行业，在招岗位数量，邀面试数
查看系统给我们创建的zhaopin.py文件
```
class Zhaopin
```

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
python scrapy爬取智联招聘的公司和职位信息（一）

缘由: 最近在找工作发现智联和51上太多培训机构的虚假招聘信息，于是乎打算写个爬虫看看，培训机构到底发布了多少虚假岗位一、创建scrapy项目安装scrapy在终端/cmd输入pip install scrapy创建项目**IDE推荐使用pycharm在cmd/终端输入（zhaopin为项目的名称） scrapy startproject zhaopin （zha...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。