python爬取前程无忧宁波职位薪酬进行初步分析

最新推荐文章于 2024-07-09 14:45:02 发布

野人出山

最新推荐文章于 2024-07-09 14:45:02 发布

阅读量648

点赞数 1

分类专栏：笔记文章标签： python mongodb 数据分析

本文链接：https://blog.csdn.net/gfwt1990/article/details/103564608

版权

本文使用Scrapy爬取前程无忧宁波地区的财务和IT职位薪酬数据，并通过MongoDB存储。接着运用pandas进行数据分析，发现财务职位薪酬主要集中在3k-6k，IT职位集中在6k-10k，IT薪资整体水平较高，但招聘需求财务职位远超IT职位。

摘要由CSDN通过智能技术生成

python爬取前程无忧宁波职位薪酬进行初步分析

对自己的学习经历做个记录。

一、用Scrapy爬取数据并存入MongoDB

spider.py

import scrapy
from www51job.items import Www51JobItem

class nbcaiwu(scrapy.Spider):#要使用 scrapy 爬虫，继承  scrapy.Spider 这个类，这样才能使用它定义的一些方法
    name = "nbcaiwu"        #定义一个爬虫的名称

    #定义请求
    def start_requests(self):
        urls =[
            'https://search.51job.com/list/080300,000000,0000,00,3,99,%25E8%25B4%25A2%25E5%258A%25A1,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=',
            ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):

        content_list_div = response.css('div#resultList.dw_table div.el')

        for content_div in content_list_div:
            item = Www51JobItem()
            item['职位名'] = content_div.css('p.t1 span a::text').get()
            item['公司名'] = content_div.css('span.t2 a::attr(title)').get()
            item['工作地点'] = content_div.css('span.t3::text').get()
            item['薪资'] = content_div.css('span.t