Python爬虫抓取智联招聘(基础版),准备Python面试

请求头:

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36’,

‘Host’: ‘sou.zhaopin.com’,

‘Referer’: ‘https://www.zhaopin.com/’,

‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8’,

‘Accept-Encoding’: ‘gzip, deflate, br’,

‘Accept-Language’: ‘zh-CN,zh;q=0.9’

}

1.2 分析有用数据

接下来我们要分析有用数据,从搜索结果中我们需要的数据有:职位名称、公司名称、公司详情页地址、职位月薪:

在这里插入图片描述

通过网页元素定位找到这几项在HTML文件中的位置,如下图所示:

在这里插入图片描述

用正则表达式对这四项内容进行提取:

正则表达式进行解析

pattern = re.compile(‘(.?).?’ # 匹配职位信息

(.?).?’ # 匹配公司网址和公司名称

‘(.*?)’, re.S) # 匹配月薪

匹配所有符合条件的内容

items = re.findall(pattern, html)

注意:解析出来的部分职位名称带有标签,如下图所示:

在这里插入图片描述

那么在解析之后要对该数据进行处理剔除标签,用如下代码实现:

for item in items:

job_name = item[0]

job_name = job_name.replace(‘’, ‘’)

job_name = job_name.replace(‘’, ‘’)

yield {

‘job’: job_name,

‘website’: item[1],

‘company’: item[2],

‘salary’: item[3]

}

2、写入文件


我们获取到的数据每个职位的信息项都相同,可以写到数据库中,但是本文选择了csv文件,以下为百度百科解释:

逗号分隔值(Comma-Separated

Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据

由于python内置了csv文件操作的库函数,所以很方便:

import csv

def write_csv_headers(path, headers):

‘’’

写入表头

‘’’

with open(path, ‘a’, encoding=‘gb18030’, newline=‘’) as f:

f_csv = csv.DictWriter(f, headers)

f_csv.writeheader()

def write_csv_rows(path, headers, rows):

‘’’

写入行

‘’’

with open(path, ‘a’, encoding=‘gb18030’, newline=‘’) as f:

f_csv = csv.DictWriter(f, headers)

f_csv.writerows(rows)

3、进度显示


要想找到理想工作,一定要对更多的职位进行筛选,那么我们抓取的数据量一定很大,几十页、几百页甚至几千页,那么我们要掌握抓取进度心里才能更加踏实啊,所以要加入进度条显示功能。

本文选择tqdm 进行进度显示,来看一下酷炫结果(图片来源网络):

在这里插入图片描述

执行以下命令进行安装:

pip install tqdm

简单示例:

from tqdm import tqdm

from time import sleep

for i in tqdm(range(1000)):

sleep(0.01)

4、完整代码


以上是所有功能的分析,如下为完整代码:

#-- coding: utf-8 --

import re

import csv

import requests

from tqdm import tqdm

from urllib.parse import urlencode

from requests.exceptions import RequestException

‘’’

python学习交流群:1136201545更多学习资料可以加群获取

‘’’

def get_one_page(city, keyword, region, page):

‘’’

获取网页html内容并返回

‘’’

paras = {

‘jl’: city, # 搜索城市

‘kw’: keyword, # 搜索关键词

‘isadv’: 0, # 是否打开更详细搜索选项

‘isfilter’: 1, # 是否对结果过滤

‘p’: page, # 页数

‘re’: region # region的缩写,地区,2005代表海淀

}

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36’,

‘Host’: ‘sou.zhaopin.com’,

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
img

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

一个人可以走的很快,但一群人才能走的更远。如果你从事以下工作或对以下感兴趣,欢迎戳这里加入程序员的圈子,让我们一起学习成长!

AI人工智能、Android移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算

一个人可以走的很快,但一群人才能走的更远。如果你从事以下工作或对以下感兴趣,欢迎戳这里加入程序员的圈子,让我们一起学习成长!

AI人工智能、Android移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算

  • 16
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值