mysqldatareader获取整行数据给datarow_基于拉钩数据分析岗的数据分析

最新推荐文章于 2021-01-11 21:48:08 发布

反正我不慌哈

最新推荐文章于 2021-01-11 21:48:08 发布

阅读量120

点赞数

文章标签： mysqldatareader获取整行数据给datarow

本文链接：https://blog.csdn.net/weixin_34568147/article/details/112069263

版权

本文介绍了如何通过爬虫获取拉钩网数据分析职位数据，进行数据清洗、处理和分析。主要涵盖了职位分布、薪资水平、工作经验与薪酬关系、福利待遇以及技能需求。结果显示，一线城市如北京、上海对数据分析师需求旺盛，平均薪资高，且金融、文娱、移动互联网等行业是热门领域。此外，SQL和Python等技术、用户增长和运营知识为必备技能。

摘要由CSDN通过智能技术生成

打工人，打工魂，打工都是人上人！年底了，打工人又又又准备换工作啦，准备找什么样工作呢？游泳健身…啊不，数据分析了解一下？送你一份最新出炉的数据分析师求职大礼包！

接下来开始我们的分析之旅吧！

一.分析思路

二.获取并理解数据

利用爬虫爬取拉钩11月某天挂出的数据分析相关职位。拉钩爬虫相对比较简单，网上也有较多思路可以借鉴。代码详情如下：

import requests 
import json 
import xlwt
import time
import random

headers = { 
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 
'Accept-Encoding': 'gzip, deflate, sdch', 
'Accept-Language': 'zh-CN,zh;q=0.8', 
'Upgrade-Insecure-Requests': '1',
'Referer':'https://www.lagou.com/jobs/list_java?labelWords=&fromSearch=true&suginput=&labelWords=hot',
'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/600.1.3 (KHTML, like Gecko) Version/8.0 Mobile/12A4345d Safari/600.1.4' } 


total_list = []

#页数; 一般默认上限是30页, 其实后面还可以继续请求
for page_num in range(0, 10000):

    print("requst page: ", page_num)

    #假如ip被封可以选择走ip代理
    proxies={ "http":"219.157.145.68:8118", "http":"120.83.110.86:9999", "http":"125.105.109.62:3128", "http":"171.221.35.32:8118", "http":"122.193.245.108:9999", } 

    #发送Get请求更新cookie 
    session = requests.session() 
    session.get('https://www.lagou.com/jobs/list_java?labelWords=&fromSearch=true&suginput=&labelWords=hot',headers=headers)

    #使用更新后的hsession请求Ajax json 
    data = { 'first':'true', 'pn':page_num, 'kd':'数据分析' } 

    #去页面抓包，然后获取那个url填进来（页面，kd 这些是自己填的；其他过滤条件去页面抓）
    rep = session.post('https://www.lagou.com/jobs/positionAjax.json?px=default&needAddtionalResult=false',headers=headers,data=data)
    #只关心返回结果中的职位信息
    result_json = rep.json()
    position_json = result_json["content"]["positionResult"]["result"]
    
    if not position_json:
        print("get result is null... continue....break")
        print(result_json)
        time.sleep(random.randint(1,5))
        break

    total_list.append(list(position_json))

    #随机等个1-5s再发请求
    time.sleep(random.randint(1,5))

#开始写excel
workbook = xlwt.Workbook(encoding='utf-8')
worksheet = workbook.add_sheet('sheet1')

print("get total page: ", len(total_list))

row_nums = 1
for page_idx in range(0, len(total_list)):
    for idx in range(0, len(total_list[page_idx])):
        
        dict_item = total_list[page_idx][idx]

        #第一页第一条要写表头
        if (page_idx == 0) and (idx == 0):
            label_nums = 0
            for key in dict_item:
                worksheet.write(page_idx, label_nums, label=key)
                label_nums = label_nums + 1

        label_nums = 0
        for key in dict_item:
            worksheet.write(row_nums, label_nums, dict_item[key])
            label_nums = label_nums + 1

        row_nums = row_nums + 1

print("write total nums: ",row_nums)
workbook.save('全国数据分析职位.xls')

爬虫运行结果会直接保存到Excel，打开之后部分数据截图如下：