使用Python爬取招聘数据、数据处理与可视化

最新推荐文章于 2024-05-06 13:42:45 发布

2401_83817418

最新推荐文章于 2024-05-06 13:42:45 发布

阅读量761

点赞数 13

分类专栏：程序员文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83817418/article/details/137551559

版权

for i in range(1,2001):

#增加时延防止反爬虫

time.sleep(5)

url = url_pattern.format(i)

response = requests.get(url=url, headers=headers)

#声明网页编码方式，需要根据具体网页响应情况

response.encoding = ‘gbk’

response.raise_for_status()

soup = BeautifulSoup(response.text, ‘html.parser’)

解析

for i in soup.find_all(lambda tag: tag.name==‘div’ and tag.get(‘class’)==[‘el’])[4:]:

job = i.find(‘p’,class_=‘t1’).a[‘title’]

company = i.find(‘span’,class_=‘t2’).a[‘title’]

place = i.find(‘span’,class_=‘t3’).get_text()

salary = i.find(‘span’,class_=‘t4’).get_text()

date = i.find(‘span’,class_=‘t5’).get_text()

detail_url = i.find(‘p’,class_=‘t1’).a[‘href’]

with open(‘intro_job.csv’, ‘a+’, encoding=‘utf-8-sig’) as f:

f.write(job + ‘,’ + company + ‘,’ + place + ‘,’ + salary + ‘,’ + date +‘,’ + detail_url + ‘\n’)

爬取数据结果

展示部分爬取结果：

部分数据展示

数据预处理

数据预处理阶段主要为了去除不完整的数据，例如有些职务的薪资未明确标出，可以采用丢弃此条数据的方式，或者使用全局平均值之类的处理方法，这里采用直接丢弃的方法。

import pandas as pd

from matplotlib import pyplot as plt

import matplotlib.ticker as ticker

import numpy as np

import math

import re

#读取数据

df = pd.read_csv(‘intro_job.csv’, encoding=‘utf-8-sig’,usecols=[“job”, “company”, “place”, “salary”, “date”])

#将相应字段数据保存至列表中

job_array = df[‘job’].values

company_array = df[‘company’].values

place_array = df[‘place’].values

salary_array = df[‘salary’].values

date_array = df[‘date’

最低0.47元/天解锁文章

关注

13
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
使用Python爬取招聘数据、数据处理与可视化

for i in range(1,2001):#增加时延防止反爬虫time.sleep(5)url = url_pattern.format(i)response = requests.get(url=url, headers=headers)#声明网页编码方式，需要根据具体网页响应情况response.encoding = ‘gbk’response.raise_for_status()soup = BeautifulSoup(response.text, ‘html.parser’)for i in s
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。