python做金融数据分析师_爬虫实战1：python分析数据分析师的'钱'景如何

最新推荐文章于 2023-02-25 10:06:00 发布

weixin_39632524

最新推荐文章于 2023-02-25 10:06:00 发布

阅读量222

点赞数

文章标签： python做金融数据分析师

随着近年来人工智能和大数据的火热，越来越多的人想要从事或转行数据分析师，大家对于此行业如此的热爱，主要原因就是薪资客观，有发展前景。

以我浅薄的工作经验，来谈谈对数据分析师的看法，此行业一直存在一个争议，到底是工具重要还是业务水平重要，即工具党和业务党，先站队，我是业务党(以前是工具党)。虽然我大部分时间都在做数据处理工作，这个能力也是必须的，无论是简单的EXCEL，SQL，PPT还是复杂的R，Python，finebi，finereport，HIve都有涉及，但是市面上有太多的分析工具，你不能全部掌握完，而各行业的业务知识是基本相同的。一个业务知识经验的数据分析师看见一堆数据，会清楚地知道从什么角度来分析，数据呈现状况如何，数据是否异常，出现异常原因在那，数据可以解决那些问题，数据适用于那些场景，他会有一个完整的数据分析思路。所以说一个合格的数据分析师是能从一堆数据中找出有价值的信息。

回到正题，数据分析的‘钱’景到底如何呢，本文将从BOOS招聘网站上近期招聘的数据分析师岗位来进行分析，涉及到工作城市，工作经验，薪资水平，技能要求等内容。

数据分析

本次获取的岗位数据量为17485，只保留数据分析岗位的数据量为5616，，本次数据工具为selenium，分析的工具为pandas，绘图工具为pyecharts，数据的最终呈现形式为

综合今年的招聘市场需求考虑，本次对于数据分析师岗位的分析，将从以下几点进行岗位所在城市

学历要求

工作年限要求

薪资分布

数据分析师岗位技能要求

主要招聘行业

主要招聘公司

招聘公司福利展示

1、岗位所在城市

由于数据分析师岗位的特殊，分析城市主要集中在一线和新一线城市，可以看出招聘需求最高的是北上广浙，其他新一线城市对于此岗位需求不大，不过随着经济的发展，大多数公司对于数据的需求就会变大，相应的岗位需求就会变多。

2、学历要求

从学历要求上可以看出，对于数据分析师本科学历占比达到77.66%

3、工作年限要求

从工作年限要求来看，数据分析师岗位对于从事此工作1-5年的人来说比较受欢迎，整体呈现一种正态分布的状态。

4、薪资分布

从薪资上来看，本次对于薪资的处理主要是从薪资空间中取最大，最小两个值(例如8-15k，取值为8k和15k)，薪资分布出现略高情况，为避免新一线城市被一线城市平均化，将对比上海和郑州两个城市，额........，下图已经可以说明问题了

5、数据分析师岗位技能要求

对于技能要求来说，出现频率最多的是数据挖掘、数据分析、python、数据仓库、商业分析、HIVE、大数据等词。可以看出数据分析师对于数据分析工具和业务水平都比较看重。

6、主要招聘行业

从招聘行业来看，需求最大的是互联网、电子商务、数据服务、金融等行业，主要原因是这些行业会产生大量的数据。人口红利已过，下沉市场都被攻略，现在都在讲究精细化运营，所以对于互联网行业来说，每一个用户都变得非常重要，而数字化用户可以更优的运营，所以这些行业对于数据分析师的岗位需求非常大，以后会更大

7、主要招聘公司

招聘需求最多的还是大公司

8、招聘公司福利展示

大多数公司的福利都是五险一金和带薪年假，节日福利等，不过这5616招聘公司中有860个是没有福利的，还看到做六休一是公司福利，996都变成福报了，看来对于任何行业来说，打工都是有风险的。打工是不可能打工的，只能另谋出路了 (附：职业规划)

数据抓取

数据来源为BOOS直聘招聘网站，对于BOOS网站主要的反爬措施是动态cookie，主要是Cookie加密字段__zp_stoken__逆向解密，我没搞定。。。，只能使用selenium自动化爬取了，反正数据搞下来了，O(∩_∩)O哈哈~

from selenium import webdriver

import time

from urllib import parse

import string

from lxml import etree

import csv

def get_parse(driver):

htmls=driver.page_source

html=etree.HTML(htmls)

items = html.xpath('//div[@class="job-list"]/ul/li')

D=[]

try:

for item in items:

zhiwei=item.xpath('.//div[@class="job-title"]/span[@class="job-name"]/a/text()')[0]

diliweizhi = item.xpath('.//span[@class="job-area"]/text()')[0]

xinzi = item.xpath('.//span[@class="red"]/text()')[0]

gongzuonianxian = item.xpath('.//div[@class="job-limit clearfix"]/p/text()')[0]

xueli = item.xpath('.//div[@class="job-limit clearfix"]/p/text()')[1]

yaoqiu = item.xpath('.//div[@class="tags"]/span/text()')[0]

yaoqiu1 = item.xpath('.//div[@class="tags"]/span/text()')[1]

try:

yaoqiu2 = item.xpath('.//div[@class="tags"]/span/text()')[2]

except:

yaoqiu2=' '

try:

yaoqiu3 = item.xpath('.//div[@class="tags"]/span/text()')[3]

except:

yaoqiu3 = ' '

try:

yaoqiu4 = item.xpath('.//div[@class="tags"]/span/text()')[4]

except:

yaoqiu4=' '

gongsi = item.xpath('.//div[@class="company-text"]/h3/a/text()')[0]

try:

hangye = item.xpath('.//div[@class="company-text"]/p/a/text()')[0]

except:

pass

try:

gongsidaxiao1 = item.xpath('.//div[@class="company-text"]/p/text()')[0]

except:

gongsidaxiao1=' '

try:

gongsidaxiao2 = item.xpath('.//div[@class="company-text"]/p/text()')[1]

except:

gongsidaxiao2=' '

try:

fuli = item.xpath('.//div[@class="info-desc"]/text()')[0]

except:

fuli=' '

print(zhiwei, diliweizhi, xinzi, gongzuonianxian, xueli, yaoqiu,yaoqiu1,yaoqiu2,yaoqiu3,yaoqiu4, gongsi, hangye, gongsidaxiao1,gongsidaxiao2,fuli)

data=[zhiwei, diliweizhi, xinzi, gongzuonianxian, xueli, yaoqiu,yaoqiu1,yaoqiu2,yaoqiu3,yaoqiu4, gongsi, hangye, gongsidaxiao1,gongsidaxiao2,fuli]

D.append(data)

except:

pass

save(D)

def save(data):

with open('./boss2.csv','a',newline='',encoding='utf-8')as f:

writer=csv.writer(f)

writer.writerows(data)

def main():

header=['职位','区域','薪资','工作年限','学历要求','技能要求1','技能要求2','技能要求3','技能要求4','技能要求5','公司名称','行业','公司状况','公司大小','福利']

with open('./boss2.csv', 'a', newline='', encoding='utf-8')as f:

writer = csv.writer(f)

writer.writerow(header)

chromedriver_path='C:/Users/10489/Desktop/chromedriver_win32/chromedriver.exe'

# 使用chrome驱动器

options = webdriver.ChromeOptions()

# 设置为开发者模式，防止被各大网站识别出来使用了Selenium

options.add_experimental_option('excludeSwitches', ['enable-automation'])

driver = webdriver.Chrome(executable_path=chromedriver_path, options=options)

a='数据分析师'

position=parse.quote(a, safe=string.printable)

# 北京、上海、广州、深圳、杭州、天津、西安、苏州、武汉、厦门、长沙、成都、郑州、重庆

city=['101010100','101020100','101280100','101280600','101210100','101030100','101110100','101190400','101200100','101230200','101250100','101270100','101180100','101040100']

for j in city:

# 应届生、1年以内、1-3年、3-5年、5-10年、10年以上

# https://www.zhipin.com/c101020100/e_103/?query={}&ka=sel-exp-102

# https://www.zhipin.com/c101020100/e_103/?query={}&ka=sel-exp-103

# https://www.zhipin.com/c101020100/e_103/?query={}&ka=sel-exp-104

# https://www.zhipin.com/c101020100/e_103/?query={}&ka=sel-exp-105

# https://www.zhipin.com/c101020100/e_103/?query={}&ka=sel-exp-106

# https://www.zhipin.com/c101020100/e_103/?query={}&ka=sel-exp-107

for i in range(2,8):

driver.get('https://www.zhipin.com/c{}/e_10{}/?query={}&ka=sel-exp-10{}'.format(j,i,position,i))

# driver.get('https://www.zhipin.com/job_detail/?query={}&city=101020100&industry=&position='.format(position))

driver.maximize_window()