利用Scrapy框架爬取某招聘网站(一)

Scrapy的安装

Anaconda3中安装Scrapy,并在Pycharm中配置环境

#一个小白,想将博客内容作为自己的项目和学习记录,其中会借鉴到很多大佬的经验,也会加上一些自己的理解,希望能给别人带来一点点帮助。此外,要是文章内容在术语上使用不规范的地方,还望各位多多指教

Anaconda3安装后的path路径配置问题

小白最早在电脑上安装Anaconda3是为了写一些Python程序,利用Spyder和Jupyter便得以完成,但是始终没有在cmd中进入Python的交互环境进行操作。直至今日,在测试时才发现,输入Python命令后,并没有运行Python,反而是跳转到应用商店(挠头)。

我的电脑属性–高级系统设置–环境变量 查看发现并未配置环境变量,需要根据Anaconda的安装路径
1.在用户变量path中分别添加:
D:\Anaconda
D:\Anaconda\Scripts
2.在系统变量path中添加:
D:\Anaconda\anaconda;D:\Anaconda\anaconda\Scripts;D:\Anaconda\anaconda\Library\bin
注意:路径中的符号均为英文符号!!!安装完Anaconda后记得及时配置path路径!!!

但是配置完后再次测试发现,仍跳转至应用商店(挠头x2)。查询资料后发现,是因为在用户变量path中,
第一条"%USERPROFILE%\AppData\Local\Microsoft\WindowsApps"在影响,删除后即可。
成功运行
参考链接

在Anaconda3中下载安装Scrapy框架

1.在Anaconda Prompt中输入conda install Scrapy
命令运行窗口
输入命令后其会自动进行环境检查,然后自动下载所需的包
环境检查
下载成功后,会提示done,并对Scrapy框架的内容给出解释
结果图
省去了Anaconda3的安装过程,可以参考链接:Anaconda官网 下载相应版本,安装即可。

在Pycharm中设置Anaconda的Python环境

1.运行Pycharm,点击files,选择settings
settings

2.选择Project–Project Interpret 选择Anaconda的Python
在这里插入图片描述
选中后下滑看所安装的包 发现Scrapy已经安装完成
Scrapy
至此,Anaconda3中下载Scrapy并在Pycharm中配置已全部完成,为后面的爬虫做好了前期准备工作。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
以下是使用Scrapy框架爬取智联招聘网站职位信息的示例代码: 1. 创建Scrapy项目 在命令行中输入以下命令,创建一个名为`zhaopin`的Scrapy项目: ``` scrapy startproject zhaopin ``` 2. 创建爬虫文件 在项目根目录下,使用以下命令创建一个名为`zhaopin_spider`的爬虫文件: ``` scrapy genspider zhaopin_spider sou.zhaopin.com ``` 3. 修改爬虫代码 打开`zhaopin_spider.py`文件,将其修改为以下代码: ```python import scrapy class ZhaopinSpiderSpider(scrapy.Spider): name = 'zhaopin_spider' allowed_domains = ['sou.zhaopin.com'] def start_requests(self): # 设置请求URL url = 'https://sou.zhaopin.com/?jl=530&kw=Python&kt=3' # 发送请求 yield scrapy.Request(url, callback=self.parse) def parse(self, response): # 获取职位列表 job_list = response.xpath('//div[@class="joblist-box__item"]') # 遍历职位列表,获取职位信息 for job in job_list: # 获取职位名称 job_name = job.xpath('.//div[@class="joblist-box__jobname"]/text()') # 获取公司名称 company_name = job.xpath('.//div[@class="joblist-box__companyname"]/text()') # 获取工作地点 location = job.xpath('.//div[@class="joblist-box__jobarea"]/text()') # 获取薪资范围 salary = job.xpath('.//span[@class="joblist-box__salary"]/text()') # 获取职位链接 job_link = job.xpath('.//a[@class="joblist-box__jobname"]/@href') # 输出职位信息 yield { '职位名称': job_name.extract_first().strip(), '公司名称': company_name.extract_first().strip(), '工作地点': location.extract_first().strip(), '薪资范围': salary.extract_first().strip(), '职位链接': job_link.extract_first().strip() } ``` 在`start_requests`方法中,我们设置了请求URL,并使用`scrapy.Request`发送请求。在`parse`方法中,我们使用XPath表达式获取职位信息,并使用`yield`输出结果。 4. 运行爬虫 在命令行中,进入项目根目录,输入以下命令运行爬虫: ``` scrapy crawl zhaopin_spider -o result.json ``` 其中,`-o result.json`表示将结果保存到名为`result.json`的文件中。 需要注意的是,Scrapy框架会自动处理反爬虫机制,但是也需要注意一些规则,如请求频率等。另外,在爬取数据时,可以使用Scrapy提供的一些中间件,如随机User-Agent、自动重试等,以提高爬取效率和稳定性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值