python爬取招聘网站信息

废话不多说,直接上代码,开箱即用。该文件抓取的是智联招聘网站的招聘信息,可以根据需要设置输入搜索关键词和查找页数,就会得到结果,可以搜索到每个岗位的岗位名称、公司名称、学历要求、公司规模、福利待遇、行业、薪资、经验、发布时间、详情页等信息,并在同目录下生成相应的文件“{keyword}zhilian”。

import requests
import json
import re
import pprint
import csv
from time import sleep
from random import randint

keyword = input('请输入你想要搜索的岗位: ')
pages = input('请输入你想要爬取的页数: ')

with open(f'{keyword}zhilian.csv', 'w', encoding='utf-8', newline='') as filename:
    dictwriter = csv.DictWriter(filename, fieldnames=[
        '岗位名称',
        '公司名称',
        '学历',
        '公司规模',
        '地区',
        '福利待遇',
        '行业',
        '薪资',
        '经验',
        '发布时间',
        '详情页',
    ])
    dictwriter.writeheader()
    for page in range(1, int(pages)):
        sleep(randint(3, 8))
        print(
            f'========================================正在采集第{page}页的数据内容============================================')
        url = f'https://sou.zhaopin.com/?jl=765&kw={keyword}&p={pages}'
        headers = {
            # 输入网址上的headers即可,点击F12发送请求在network中的response就可查看到
        }
        response = requests.get(url=url, headers=headers)

        html_data = re.findall('"locationInfo":{},"selectCity":"","positionList":(.*?),"isSupportBatchDelivery":true,',
                               response.text)[0]

        json_data = json.loads(html_data)

        for index in json_data:
            dit = {
                '岗位名称': index['name'],
                '公司名称': index['companyName'],
                '学历': index['education'],
                '公司规模': index['companySize'],
                '地区': index['cityDistrict'],
                '福利待遇': index['positionHighlight'],
                '行业': index['industryName'],
                '薪资': index['salary60'],
                '经验': index['workingExp'],
                '发布时间': index['publishTime'],
                '详情页': index['positionURL'],

            }
            dictwriter.writerow(dit)
            print(dit)

运行结果截图如下所示:
在这里插入图片描述

  • 18
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
以下是在VS Code中配置Python爬取招聘网站信息的步骤: 1. 安装Python和VS Code 首先确保已经安装了Python和VS Code,可以从官网下载安装包并安装。 2. 创建一个Python项目文件夹 在VS Code中创建一个文件夹,用于存放Python项目,例如:python_crawler。 3. 打开终端 在VS Code中打开终端,可以通过快捷键Ctrl + Shift + `或者在菜单栏中选择Terminal -> New Terminal打开。 4. 安装必要的Python库 在终端中输入以下命令安装必要的Python库: ``` pip install requests pip install beautifulsoup4 ``` requests是用于发送HTTP请求的库,beautifulsoup4是用于解析HTML文档的库。 5. 编写Python爬虫代码 在python_crawler文件夹中创建一个Python文件,例如:job_crawler.py,并编写爬虫代码。 以下是一个简单的爬虫示例: ```python import requests from bs4 import BeautifulSoup url = 'https://www.zhipin.com/c101010100/?query=python&page=1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') job_list = soup.find_all('div', class_='job-primary') for job in job_list: job_title = job.find('div', class_='job-title').text.strip() job_salary = job.find('span', class_='red').text.strip() job_company = job.find('div', class_='company-text').find('a').text.strip() print(job_title, job_salary, job_company) ``` 以上代码是用于爬取BOSS直聘上的Python职位信息。其中,url是要爬取的网页链接,headers是请求头,response是网页的响应对象,soup是解析后的BeautifulSoup对象,job_list是找到的所有职位信息的列表。在for循环中,通过find方法找到职位的标题、薪水和公司名称,并打印输出。 6. 运行Python爬虫代码 在终端中进入python_crawler文件夹,并输入以下命令运行Python爬虫代码: ``` python job_crawler.py ``` 运行后,就可以看到爬取到的职位信息输出到终端中了。 以上是在VS Code中配置Python爬取招聘网站信息的步骤,希望能对你有帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值