Python爬虫入门教程32:爬取boss直聘招聘数据并做可视化展示


  • Python 3.8

  • Pycharm

相关模块的使用💨


from selenium import webdriver

import csv

安装Python并添加到环境变量,pip安装需要的相关模块即可。

在这里插入图片描述

如图所示,通过 Python 来控制 Selenium,然后让 Selenium 控制浏览器,操纵浏览器,这样就实现了使用Python 间接的操控浏览器。

Selenium具体怎么就能操纵浏览器呢?这要归功于 浏览器驱动 ,Selenium可以通过API接口实现和浏览器驱动的交互,进而实现和浏览器的交互。所以要配置浏览器驱动。

本教材使用版本:

火狐驱动:geckodriver 0.23.0 ( 2018-10-04)

火狐驱动下载地址: http://npm.taobao.org/mirrors/geckodriver/

谷歌驱动:ChromeDriver 71.0.3578.33

谷歌驱动下载地址:

https://npm.taobao.org/mirrors/chromedriver/

http://chromedriver.storage.googleapis.com/index.html

配置浏览器驱动:

将下载好的浏览器驱动解压,将解压出的 exe 文件放到Python的安装目录下,也就是和python.exe同目录即可。

在这里插入图片描述

💥代码实现


from selenium import webdriver

import csv

f = open(‘data.csv’, mode=‘a’, encoding=‘utf-8’, newline=‘’)

csv_writer = csv.DictWriter(f, fieldnames=[

‘标题’,

‘地区’,

‘薪资’,

‘经验’,

‘公司名’,

‘公司领域’,

‘福利’,

‘详情页’,

])

csv_writer.writeheader()

driver = webdriver.Chrome()

driver.get(‘https://www.zhipin.com/job_detail/?query=python&city=100010000&industry=&position=’)

driver.implicitly_wait(10)

def get_job_info():

lis = driver.find_elements_by_css_selector(‘.job-list li’)

for li in lis:

标题

title = li.find_element_by_css_selector(‘.job-name a’).get_attribute(‘title’)

地区

area = li.find_element_by_css_selector(‘.job-area’).text

薪资

money = li.find_element_by_css_selector(‘.job-limit .red’).text

经验

limit = li.find_element_by_css_selector(‘.job-limit p’).text

exp = limit[0].text

company_name = li.find_element_by_css_selector(‘.company-text .name a’).text

company_type = li.find_element_by_css_selector(‘.company-text p a’).text

desc = li.find_element_by_css_selector(‘.info-append .info-desc’).text

href = ‘https://www.zhipin.com/’ + li.find_element_by_css_selector(‘.job-name a’).get_attribute(‘href’)

print(title, area, money, limit, company_name, company_type, desc, sep=‘|’)

dit = {

‘标题’: title,

‘地区’: area,

‘薪资’: money,

‘经验’: limit,

‘公司名’: company_name,

‘公司领域’: company_type,

‘福利’: desc,

‘详情页’: href,

}

csv_writer.writerow(dit)

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
img

的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!**

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
[外链图片转存中…(img-Qrdfp5ky-1712710063853)]

  • 29
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我们可以使用 Python 中的 requests 库和 BeautifulSoup 库来爬取 BOSS 直聘招聘数据。 首先,我们需要打开 BOSS 直聘的网站,搜索我们需要的职位,并复制浏览器地址栏中的链接,作为我们爬取的 URL。 接下来,我们可以使用 requests 库向该 URL 发送请求,并使用 BeautifulSoup 库解析 HTML 文档,提取我们需要的招聘信息。 以下是示例代码: ```python import requests from bs4 import BeautifulSoup url = 'https://www.zhipin.com/job_detail/?query=python&city=101010100&industry=&position=' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') job_list = soup.find('div', class_='job-list').find_all('li') for job in job_list: job_name = job.find('div', class_='job-title').text.strip() company_name = job.find('div', class_='company-text').find('h3').text.strip() salary = job.find('span', class_='red').text.strip() print(job_name, company_name, salary) ``` 在上述代码中,我们首先定义了我们需要爬取的 URL,以及请求头 headers。然后,我们使用 requests 库向该 URL 发送请求,并使用 BeautifulSoup 库解析 HTML 文档。 在解析 HTML 文档后,我们使用 find() 方法找到 class 为 job-list 的 div 标签,并使用 find_all() 方法找到其下所有的 li 标签,即每个招聘信息。 接下来,我们使用 find() 方法分别找到每个招聘信息的职位名称、公司名称和薪资,并使用 strip() 方法去除空格和换行符。 最后,我们将这些信息打印出来,即可得到我们需要的招聘数据。 需要注意的是,BOSS 直聘的网页结构可能会有所变化,上述代码仅供参考。另外,爬取网页数据需要遵守相关法律法规,不得用于商业用途。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值