Python爬虫抓取智联招聘（基础版），准备Python面试

2301_79098684

于 2024-04-04 01:24:48 发布

阅读量760

点赞数 16

分类专栏： 2024年程序员学习文章标签： python 爬虫面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79098684/article/details/137361997

版权

2024年程序员学习专栏收录该内容

242 篇文章 0 订阅

订阅专栏

请求头：

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36’,

‘Host’: ‘sou.zhaopin.com’,

‘Referer’: ‘https://www.zhaopin.com/’,

‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8’,

‘Accept-Encoding’: ‘gzip, deflate, br’,

‘Accept-Language’: ‘zh-CN,zh;q=0.9’

}

1.2 分析有用数据

接下来我们要分析有用数据，从搜索结果中我们需要的数据有：职位名称、公司名称、公司详情页地址、职位月薪：

在这里插入图片描述

通过网页元素定位找到这几项在HTML文件中的位置，如下图所示：

在这里插入图片描述

用正则表达式对这四项内容进行提取：

正则表达式进行解析

pattern = re.compile(‘(.?).?’ # 匹配职位信息

‘(.?).?’ # 匹配公司网址和公司名称

‘(.*?)’, re.S) # 匹配月薪

匹配所有符合条件的内容

items = re.findall(pattern, html)

注意：解析出来的部分职位名称带有标签，如下图所示：

在这里插入图片描述

那么在解析之后要对该数据进行处理剔除标签，用如下代码实现：

for item in items:

job_name = item[0]

job_name = job_name.replace(‘’, ‘’)

job_name = job_name.replace(‘’, ‘’)

yield {

‘job’: job_name,

‘website’: item[1],

‘company’: item[2],

‘salary’: item[3]

}

2、写入文件

我们获取到的数据每个职位的信息项都相同，可以写到数据库中，但是本文选择了csv文件，以下为百度百科解释：

逗号分隔值（Comma-Separated

Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据

由于python内置了csv文件操作的库函数，所以很方便：

import csv

def write_csv_headers(path, headers):

‘’’

写入表头

‘’’

with open(path, ‘a’, encoding=‘gb18030’, newline=‘’) as f:

f_csv = csv.DictWriter(f, headers)

f_csv.writeheader()

def write_csv_rows(path, headers, rows):

‘’’

写入行

‘’’

with open(path, ‘a’, encoding=‘gb18030’, newline=‘’) as f:

f_csv = csv.DictWriter(f, headers)

f_csv.writerows(rows)

3、进度显示

要想找到理想工作，一定要对更多的职位进行筛选，那么我们抓取的数据量一定很大，几十页、几百页甚至几千页，那么我们要掌握抓取进度心里才能更加踏实啊，所以要加入进度条显示功能。

本文选择tqdm 进行进度显示，来看一下酷炫结果（图片来源网络）：

在这里插入图片描述

执行以下命令进行安装：

pip install tqdm

简单示例：

from tqdm import tqdm

from time import sleep

for i in tqdm(range(1000)):

sleep(0.01)

4、完整代码

以上是所有功能的分析，如下为完整代码：

#-- coding: utf-8 --

import re

import csv

import requests

from tqdm import tqdm

from urllib.parse import urlencode

from requests.exceptions import RequestException

‘’’

python学习交流群：1136201545更多学习资料可以加群获取

‘’’

def get_one_page(city, keyword, region, page):

‘’’

获取网页html内容并返回

‘’’

paras = {

‘jl’: city, # 搜索城市

‘kw’: keyword, # 搜索关键词

‘isadv’: 0, # 是否打开更详细搜索选项

‘isfilter’: 1, # 是否对结果过滤

‘p’: page, # 页数

‘re’: region # region的缩写，地区，2005代表海淀

}

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36’,

‘Host’: ‘sou.zhaopin.com’,

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

一个人可以走的很快，但一群人才能走的更远。如果你从事以下工作或对以下感兴趣，欢迎戳这里加入程序员的圈子，让我们一起学习成长！

AI人工智能、Android移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算

一个人可以走的很快，但一群人才能走的更远。如果你从事以下工作或对以下感兴趣，欢迎戳这里加入程序员的圈子，让我们一起学习成长！

AI人工智能、Android移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算

关注

16
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫抓取智联招聘（基础版），准备Python面试

请求头：;
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄1年

257: 原创

-: 周排名

-: 总排名

16万+: 访问

: 等级

6263: 积分

2623: 粉丝

3578: 获赞

15: 评论

3629: 收藏

私信

关注

热门文章

分类专栏

2024年程序员学习 242篇
程序员 15篇

最新评论

Android下拉刷新完全解析，教你如何一分钟实现下拉刷新功能
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Android菜鸡字节跳动秋招面筋，面试客户端岗位10天拿offer（已意向书）
普通网友: 写的很好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
8年Android开发教你如何写简历，BAT大厂面试总结_android8年大厂简历
普通网友: 优质好文！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
使用Python实现贝叶斯分类器-------文章中有源码，Python程序员如何有效提升学习效率
CSDN-Ada助手: 恭喜作者在实现贝叶斯分类器方面取得了成功！阅读您的文章让我受益匪浅，特别是您分享的Python源码部分，让我对贝叶斯分类器有了更深入的理解。希望您能继续坚持创作，分享更多有关Python和机器学习的内容。下一步建议可以尝试探讨不同分类器的比较和应用场景，以及如何优化算法性能。谢谢您的分享，期待您更多的精彩文章！
国庆在家太无聊，用Java爬了上千张小姐姐照片，和阿里大牛的技术面谈
CSDN-Ada助手: 恭喜您能够在国庆假期中保持创作热情，不枉费这段时间！爬取上千张小姐姐照片和与阿里大牛进行技术面谈，听起来真是充实而有趣的经历呢。希望您在接下来的创作中能够继续保持热情，不断探索新的主题和内容，也许可以分享一些关于技术面谈的心得体会或者更多有趣的爬虫经历。期待您的下一篇博客！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。