Python爬虫 猎聘岗位信息收集

以下仅供参考,非法爬取使用属个人违法行为!

在此之前,Python编译器肯定需要安装的,地址如下:Download Python | Python.org

编辑器可以选择:PyCharm Community Edition

在此过程中,你还需要,配置编辑器的编译器安装位置(运行目录),请选择(默认):C:/Program Files/python

下载Google浏览器(尽量安装114.版本之前的),安装后查看浏览器版本号,然后安装相应的模块Chrome driver

浏览器(官方新版本)下载地址:Google Chrome 网络浏览器

Chrome driver模块(新版本):Chrome for Testing availability

Chrome driver模块(老版本):https://chromedriver.storage.googleapis.com/index.html

将下载好的Chrome driver模块解压到,Google浏览器和Python编译器的安装目录下

浏览器默认目录:C:/Program Files/Google/Chrome/Application

编译器默认目录:C:/Program Files/python

设置环境变量:此电脑->属性->高级设置->环境变量:在Path中添加C:/Program Files/python


新建项目,开始编写,将main中的代码全部删除。

在下方的终端中,导入2个模块。

pip install selenium
pip install openpyxl

然后开始编写:(以下代码为彪哥.TOP原创开发,仅供参考!)

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import openpyxl
import random

# 浏览器驱动、表格
wd = webdriver.Chrome()
wb = openpyxl.Workbook()


wd.set_page_load_timeout(3)
wd.set_script_timeout(3)

wd.implicitly_wait(3)
page = '0'
key = '网络工程师'    #搜索岗位的关键字
dq = '050020'   #广州     180020:长沙   180040:株洲   050090:深圳

def fw(page):
    wd.get(
        f'https://www.liepin.com/zhaopin/?city={dq}&dq={dq}&pubTime=¤tPage={page}&pageSize=40&key={key}&ckId=70wwsj3tnnvnjfvvw4y150379rdvn4ia&scene=condition&skId=473la81xwfxc5gzukhm6ossi0cggqrb9')


# sheet = wb.create_sheet('Python')
i = 0
rows = []
linshis = []
linshi_list = []
sheet = wb.active
sheet.title = '招聘'      #更改单元格标题
title_list = ['职位','地区','薪资','经验','学历','岗位简介','公司','公司信息','HR','HR职位']
rows.insert(0,title_list)

for n in range(0,10):    #翻页(浏览0-9页)
    fw(n)

    gws = wd.find_elements(By.CSS_SELECTOR,'[class="jsx-2297469327 job-card-pc-container"]')

    for gw in gws:
        linshis.insert(0, gw.text)
        linshi_list.insert(0,linshis)
        rows.extend(linshi_list)
        print(linshi_list)
        print('——————————————————————————————————————————————————')
        linshis = []
        linshi_list = []
    print(rows)

for row in rows:
    sheet.append(row)


file_name = random.randint(99999,999999)
file_name = f'招聘{file_name}.xlsx'
print(f'已保存到{file_name}')
wb.save(file_name)



input('等待回车键结束程序')

运行如下(此文件保存在项目文件目录下,文件名为招聘+随机数.xlsx)表格:

【有需要,可以打开:文件查看 - 简域云盘 - 彪哥.TOP

  • 25
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值