使用Python爬取招聘数据、数据处理与可视化

for i in range(1,2001):

#增加时延防止反爬虫

time.sleep(5)

url = url_pattern.format(i)

response = requests.get(url=url, headers=headers)

#声明网页编码方式,需要根据具体网页响应情况

response.encoding = ‘gbk’

response.raise_for_status()

soup = BeautifulSoup(response.text, ‘html.parser’)

解析

for i in soup.find_all(lambda tag: tag.name==‘div’ and tag.get(‘class’)==[‘el’])[4:]:

job = i.find(‘p’,class_=‘t1’).a[‘title’]

company = i.find(‘span’,class_=‘t2’).a[‘title’]

place = i.find(‘span’,class_=‘t3’).get_text()

salary = i.find(‘span’,class_=‘t4’).get_text()

date = i.find(‘span’,class_=‘t5’).get_text()

detail_url = i.find(‘p’,class_=‘t1’).a[‘href’]

with open(‘intro_job.csv’, ‘a+’, encoding=‘utf-8-sig’) as f:

f.write(job + ‘,’ + company + ‘,’ + place + ‘,’ + salary + ‘,’ + date +‘,’ + detail_url + ‘\n’)

爬取数据结果

展示部分爬取结果:

部分数据展示

数据预处理


数据预处理阶段主要为了去除不完整的数据,例如有些职务的薪资未明确标出,可以采用丢弃此条数据的方式,或者使用全局平均值之类的处理方法,这里采用直接丢弃的方法。

import pandas as pd

from matplotlib import pyplot as plt

import matplotlib.ticker as ticker

import numpy as np

import math

import re

#读取数据

df = pd.read_csv(‘intro_job.csv’, encoding=‘utf-8-sig’,usecols=[“job”, “company”, “place”, “salary”, “date”])

#将相应字段数据保存至列表中

job_array = df[‘job’].values

company_array = df[‘company’].values

place_array = df[‘place’].values

salary_array = df[‘salary’].values

date_array = df[‘date’

  • 13
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫是一种通过编写程序来获取互联网上的数据的技术。对于爬取招聘网站数据,可以使用Python中的一些第三方库如Scrapy或BeautifulSoup来实现。 首先,我们需要分析招聘网站的HTML结构,找到我们需要爬取数据所在的元素位置。然后,编写Python代码,使用相应的库来提取所需的数据。这些数据可以包括职位名称、公司名称、薪资水平等。 接下来,我们可以使用Tableau来进行数据可视化和交互。Tableau是一款功能强大的商业智能工具,可以帮助我们将数据变成易于理解和分析的可视化图表。可以通过将爬取到的数据导入Tableau,然后使用Tableau的图表、地图、仪表盘等功能来展示数据。 通过Tableau的交互大屏功能,我们可以实现对数据的实时展示和交互。例如,我们可以设置数据刷新时间,使得大屏能够显示最新的招聘信息。我们还可以添加筛选器和参数控制,使用户能够自由地根据需求进行数据过滤和分析。 最后,将Python爬取数据和Tableau可视化交互大屏的源码整合起来,就可以实现将招聘网站数据爬取并用Tableau进行可视化展示的功能。这个源码可以分为两部分,一部分是爬虫代码,负责数据爬取和处理;另一部分是Tableau代码,负责将数据导入Tableau并进行可视化展示。 综上所述,通过Python爬虫获取招聘网站数据,并使用Tableau进行可视化交互大屏展示,是一种非常有效的数据分析方法。这样可以将庞大的数据转化为直观、易懂的图表,方便用户进行数据的理解和决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值