python爬取前程无忧宁波职位薪酬进行初步分析

本文使用Scrapy爬取前程无忧宁波地区的财务和IT职位薪酬数据,并通过MongoDB存储。接着运用pandas进行数据分析,发现财务职位薪酬主要集中在3k-6k,IT职位集中在6k-10k,IT薪资整体水平较高,但招聘需求财务职位远超IT职位。
摘要由CSDN通过智能技术生成

python爬取前程无忧宁波职位薪酬进行初步分析

对自己的学习经历做个记录。

一、用Scrapy爬取数据并存入MongoDB

spider.py

import scrapy
from www51job.items import Www51JobItem

class nbcaiwu(scrapy.Spider):#要使用 scrapy 爬虫,继承  scrapy.Spider 这个类,这样才能使用它定义的一些方法
    name = "nbcaiwu"        #定义一个爬虫的名称

    #定义请求
    def start_requests(self):
        urls =[
            'https://search.51job.com/list/080300,000000,0000,00,3,99,%25E8%25B4%25A2%25E5%258A%25A1,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=',
            ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):

        content_list_div = response.css('div#resultList.dw_table div.el')

        for content_div in content_list_div:
            item = Www51JobItem()
            item['职位名'] = content_div.css('p.t1 span a::text').get()
            item['公司名'] = content_div.css('span.t2 a::attr(title)').get()
            item['工作地点'] = content_div.css('span.t3::text').get()
            item['薪资'] = content_div.css('span.t
好的,这里提供一种爬取前程无忧进行信息分析与清洗的思路和代码示例。 首先,我们需要安装一些必要的库,如requests、BeautifulSoup、pandas等。可以使用以下命令进行安装: ```python pip install requests BeautifulSoup4 pandas ``` 然后,我们需要编写代码进行爬取和清洗。以下是一个简单的示例代码,可以爬取前程无忧的某个职位的信息,并将其保存为CSV文件: ```python import requests from bs4 import BeautifulSoup import pandas as pd # 定义爬取的网址和请求头 url = "https://search.51job.com/list/020000%252C010000%252C030200%252C040000%252C080200,000000,0000,00,9,99,python,2,1.html" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"} # 发送请求并获取页面内容 response = requests.get(url, headers=headers) soup = BeautifulSoup(response.content, "html.parser") # 获取职位信息 job_list = soup.find_all("div", class_="el") # 创建一个空的DataFrame df = pd.DataFrame(columns=["职位名称", "公司名称", "工作地点", "薪资", "发布时间", "职位链接"]) # 遍历每个职位,并把信息存入DataFrame for job in job_list: job_name = job.find("a").get("title") company_name = job.find("span", class_="t2").text.strip() job_location = job.find("span", class_="t3").text.strip() salary = job.find("span", class_="t4").text.strip() publish_time = job.find("span", class_="t5").text.strip() job_link = job.find("a").get("href") df = df.append({"职位名称": job_name, "公司名称": company_name, "工作地点": job_location, "薪资": salary, "发布时间": publish_time, "职位链接": job_link}, ignore_index=True) # 保存到CSV文件 df.to_csv("jobs.csv", encoding="utf-8-sig", index=False) ``` 这段代码会爬取前程无忧上关于“python”的职位信息,并将职位名称、公司名称、工作地点、薪资、发布时间和职位链接存入一个DataFrame中。最后,将DataFrame保存为一个CSV文件。 注意:以上代码仅供参考,具体的爬取方式和清洗方法需要根据实际情况进行调整。同时,需要注意遵守网站的爬取规则,不要过于频繁地请求网站,避免给网站带来过大的负担。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值