requests-bs4路线爬取中华英才网并分析热门职位及其薪资

本文介绍了如何利用requests和BeautifulSoup库爬取中华英才网的热门职位及其薪资数据,并进行了分析。通过网络结构分析,找到职位和薪资信息的HTML标签,实现多页爬取。数据在Excel中展示,并绘制了热门职业分析图和薪资分布图,结果显示销售经理是最热门职位,薪资集中在5000-8000人民币。
摘要由CSDN通过智能技术生成

requests-bs4路线爬取中华英才网并分析热门职位及其薪资

在现在这个信息爆炸的时代,每人每分每秒都在产生数据,数据单位是PB量级。在如此巨大的数据中,通过数据分析可以使企业清晰的了解到目前的现状与竞争环境,风险评判与决策支持,能够充分利用数据带来的价值,进行数据挖掘分析与展现后,呈现给企业决策者的将是一份清晰、准确且有数据支撑的“有价值”报告。

网络结构分析

网络分析图

如图所示,将网页代码解析后使用soup.find_all()和soup.find()方法,职位信息在属性class为e1的span标签下的a中,而薪资在属性class为e2的span中。爬取网站代码,返回的是完整的页面信息代码,则可以使用简单的requests-bs4路线进行爬取,在代码中添加for循环进行多页爬取。

完整代码

下面展示一些 内联代码片

import requests
import os
import csv
from bs4 import  BeautifulSoup
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

以上为库的导入,接下来就要实现函数了

#request调用,获取页面
def GetHtml(url):
    try:
        kv={
   
            'user-agent':'Mozilla/5.0'#加入头部
        }
        r=requests.get(url,headers=kv)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        print("GetHtml出现错误")
#结束

上面的就是经典的request函数库的使用,接下来继续写

#BeautifulSoup调用,整理页面查找值
def GetInfo(html,PositionName,SalaryList):
    soup=BeautifulSoup(html, "html.parser")
    for li in soup.find_all('li', {
   'class': 'l1'}):
        if 
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值