儿科医生在国内需求分析

前言

数据清洗

去重

创建、更新时间 数据类型转换

省份、市区清理

处理工资字段

数据分析

儿科医生的需求

儿科医生招聘经验要求

儿科医生学历高吗

职称对儿科医生高吗

儿科的工资待遇怎么样?

相当工资,医院对学历、职称等要求如何?

各地方省市对儿科医生的需求

儿科医生的要求和福利

总结


前言

这周跟着“[Alfred数据室]”分析了一篇关于儿科医生这个职位在国内的招聘要求、薪资水平、在医生招聘中所占比例等,今天把学到的和写的代码数据和大家做个分享,废话不多说,直接上代码来分析。

首先看一下数据的基本类型和结构,这个数据总共有27列数据,每一列代表不同的内容,例如:area代表地区、jobYearText代表工作年限,gradeText代表招聘级别。

all_data.info()

数据清洗

去重

但是这些数据太多了,有许多是不需要的,这里我们做一下清洗,把不需要的数据删除掉。

#把无用的字段删去,inplace代表在当前df中执行此操作
#根据id去重, drop_duplicates是去除完全重复的数据行
all_data.drop(columns=['_id', 'entLogo', 'region'], inplace=True)
all_data.drop_duplicates(subset='id', inplace=True)
all_data.sample(2)

 创建、更新时间 数据类型转换

我们需要增加2列数据内容,即把'createTime'和'updateTime'的数据类型转换。

all_data['createTime'] = pd.to_datetime(all_data['createTime'])
all_data['updateTime'] = pd.to_datetime(all_data['updateTime'])

省份、市区清理

由于儿科的数据是按照市为单位爬取的,而其它科是按省爬取的,所以area没有参考意义,如图所示,需要清理出省。

all_data['locationText'].unique()
all_data.loc[all_data['depType'] != '儿科', 'province'] = all_data.loc[all_data['depType'] != '儿科', 'area']
all_data.loc[(all_data['locationText'].str.contains('北京|上海|天津|重庆|自治区|省'))&
             (all_data['depType'] == '儿科'), 'province']= all_data.loc[(all_data['locationText'].str.contains('北京|上海|天津|重庆|自治区|省'))&
                                                                      (all_data['depType'] == '儿科'), 'locationText'].str.split('省|自治区|市', expand=True)[0]
all_data['city'] = all_data['locationText'].str.extract(r'(.{2}市)')
all_data['city']

处理工资字段

工资列的数据看着很乱,这里做下处理,统一一下工资字段从而方便后面的数据处理。这里使用一个自定义函数进行处理。

all_data['salaryText'].unique()

def process_k(data):
    if '千' in data :
        return float(data.replace('千','')) *1000
    elif '万' in data :
        return float(data.replace('万','')) * 10000
    
def process_salary(data):
    if data == '面议':
        return np.nan
    if '万以上' in data :
        return float(data.replace('万以上','')) * 10000
    if '千以下'  in data :
        return float(data.replace('千以下','')) * 1000
    if '-' in data :
        low, high = data.split('-')
        return (process_k(low) + process_k(high)) / 2

all_data['salary'] = all_data['salaryText'].apply(process_salary)
all_data = all_data[-(all_data['salary']>100000)]
all_data.iloc[2600]

数据分析

儿科医生的需求

上面过程中我们把数据清洗完了,这里我们来对数据做进一步的分析,首先我们看一下,国内对儿科医生的需求量,儿科医生目标在招聘岗位有2359,期中公立医院对儿科医生需求量最大,其次是民营医院,还有部分医药、生物企业也在招聘儿科医生。

all_data[all_data['depType'] == '儿科'].shape

type_pct = all_data.loc[all_data['depType'] == '儿科','typeText'].value_counts() / all_data[all_data['depType'] == '儿科'].shape[0] *100
type_pct


from pyecharts import Bar

bar = Bar("各类型单位招聘儿科岗位数百分比", width = 700,height=500)
bar.add("", type_pct.index, np.round(type_pct.values, 1), is_stack=True, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, is_label_show=True,
       xaxis_rotate=20)
bar.render('各类型单位招聘儿科岗位数百分比.html')
bar

儿科医生招聘经验要求

大家知道,一般做医生的都需要经验,儿科医生也不例外,可以看出“经验不限”的所占比例最高,其次是工作5-10的。 但是公立医院对儿科医生的招聘年限要求比私立医院要宽松,公立和民营医院不太喜欢招聘应届儿科医生,这个也不难理解。

np.round(all_data.loc[all_data['depType']=='儿科','jobYearText'].value_counts() / all_data[all_data['depType'] == '儿科'].shape[0] * 100 ,1)

#公立医院对儿科医生的招聘经验要求百分比
pub_exp_pct = all_data.loc[(all_data['depType']=='儿科')&(all_data['typeText']=='公立医院'),'jobYearText'].value_counts()/all_data.loc[(all_data['depType']=='儿科')&(all_data['typeText']=='公立医院')].shape[0] * 100
np.round(pub_exp_pct,1)

#私立医院对儿科招聘经验的要求百分比
ori_exp_pct = all_data.loc[(all_data['depType'] == '儿科')&(all_data['typeText']=='民营医院'),'jobYearText'].value_counts()/all_data.loc[(all_data['depType'] == '儿科')&(all_data['typeText']=='公立医院')].shape[0] *100
np.round(ori_exp_pct,1)

# 公立/民营医院儿科医生招聘工作经验要求百分比
exp = ['应届生', '1-3年', '3-5年', '5-10年', '10年以上', '经验不限']
exp1 = [1.6, 12.9, 14.4, 14.8, 6.4, 49.4]
exp2 = [2.5, 9.2, 7.7, 8.1, 3.7, 68]
exp3 = [0.5, 17.8, 22.3, 21.1, 9.7, 28.7]
bar = Bar("公立/民营医院儿科医生招聘工作经验要求百分比", width = 600,height=500)
bar.add("平均",exp, exp1, is_stack=False, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, 
        is_label_show=True, legend_top=30, xaxis_rotate=20)
bar.add("公立医院",exp, exp2, is_stack=False, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, 
        is_label_show=True, legend_top=30, xaxis_rotate=20)
bar.add("民营医院",exp, exp3, is_stack=False, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, 
        is_label_show=True, legend_top=30, xaxis_rotate=20)
bar.render('公立、民营医院儿科医生招聘工作经验要求百分比.html')
bar

儿科医生学历高吗

大家都知道,医生行业的学历水平普遍要高一些,我认识的几个做医生的同学基本都是研究生毕业的,很少有本科生,即使是本科生也是那些名校毕业的,但是通过数据分析发现儿科医生本科毕业比例最高,其次是硕士、博士、大专。

np.round(all_data.loc[all_data['depType'] == '儿科','gradeText'].value_counts() /all_data[all_data['depType'] == '儿科'].shape[0] *100 ,1)

# 公立医院儿科医生招聘学历要求百分比
np.round(all_data.loc[(all_data['depType'] == '儿科') & (all_data['typeText'] == '公立医院'),'gradeText'].value_counts() /all_data[(all_data['depType'] == '儿科') & (all_data['typeText'] == '公立医院')].shape[0] * 100,1)

#民营医院儿科医生招聘学历要求百分比
np.round(all_data.loc[(all_data['depType'] == '儿科') & (all_data['typeText'] == '民营医院'),'gradeText'].value_counts() /all_data[(all_data['depType'] == '儿科') & (all_data['typeText'] == '民营医院')].shape[0] * 100,1)


#公立/民营医院儿科医生招聘学历要求百分比
grade = ['大专', '本科', '硕士', '博士', '学历不限']
grade1 = [15.7, 51.7, 21.6, 4.7, 6.2]
grade2 = [4.1, 49.1, 34, 8.1, 4.7]
grade3 = [30, 54.7, 6.1, 0.6, 8.5]
bar = Bar("公立/民营医院儿科医生招聘学历要求百分比", width = 600,height=500)
bar.add("平均",grade, grade1, is_stack=False, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, 
        is_label_show=True, legend_top=30, xaxis_rotate=20)
bar.add("公立医院",grade, grade2, is_stack=False, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, 
        is_label_show=True, legend_top=30, xaxis_rotate=20)
bar.add("民营医院",grade, grade3, is_stack=False, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, 
        is_label_show=True, legend_top=30, xaxis_rotate=20)
bar.render('公立、民营医院儿科医生招聘学历要求百分比.html')
bar

职称对儿科医生高吗

各行各业基本都要求要有职称,一般职称越高的话,相应的薪资福利待遇也会更高一些,所以大家都要努力考证啊,从图中可以看出,公立医院对职称要求不高,民营医院起码要求是初级,而且占比最大,对职称要求更高一些,怪不得民营医院收费要高一些。

#公立和民营医院儿科医生招聘职称百分比
np.round(all_data.loc[all_data['depType'] == '儿科','positText'].value_counts() / all_data[all_data['depType'] == '儿科'].shape[0] *100,1)

#公立医院儿科医生招聘职称百分比
np.round(all_data.loc[(all_data['depType'] == '儿科') & (all_data['typeText']=='公立医院'),'positText'].value_counts() / all_data[(all_data['depType'] == '儿科') & (all_data['typeText']=='公立医院')].shape[0] * 100,1)

#私立医院儿科医生招聘职称百分比
np.round(all_data.loc[(all_data['depType'] == '儿科') & (all_data['typeText']=='民营医院'),'positText'].value_counts() / all_data[(all_data['depType'] == '儿科') & (all_data['typeText']=='民营医院')].shape[0] * 100,1)

#公立/民营医院儿科医生招聘职称要求百分比图形绘制
level = ['初级', '中级', '副高', '高级', '不限']
level1 = [27.6, 17.2, 10.5, 2.5, 36.4]
level2 = [25, 8.1, 10.7, 3, 46.6]
level3 = [33.2, 26.3, 10.3, 1.9, 23.7]
bar = Bar("公立/民营医院儿科医生招聘职称要求百分比", width = 600,height=500)
bar.add("平均",level, level1, is_stack=False, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, 
        is_label_show=True, legend_top=30, xaxis_rotate=20)
bar.add("公立医院",level, level2, is_stack=False, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, 
        is_label_show=True, legend_top=30, xaxis_rotate=20)
bar.add("民营医院",level, level3, is_stack=False, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, 
        is_label_show=True, legend_top=30, xaxis_rotate=20)
#bar.render('公立/民营医院儿科医生招聘职称百分比.html')
bar.render('公立、民营医院儿科医生招聘职称要求百分比.html')
bar

儿科的工资待遇怎么样?

医生的薪资一般来说是根据工作经验和职称来定的,当然这里排出了其他方面的"shouru"。 从数据可以看出,儿科医生的平均薪资要高于其他科室的医生,达到13328。薪资果然是高啊,看到这我这个小渣渣沉默了。

                                                                å¥½äºï¼ä½ ä¸è¦å说äºï¼çå­ï¼è¡¨æ

mean_salary = all_data.groupby('depType')['salary'].mean().sort_values()

#绘制图形   儿科平均工资与其它科室对比
bar = Bar("儿科平均工资与其它科室对比", width = 600,height=400)
bar.add("", mean_salary.index, np.round(mean_salary.values, 0), is_stack=True, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, is_label_show=True, 
       )
bar.render('儿科平均工资与其它科室对比.html')
bar

各类型单位招聘的儿科平均工资,期中生物药企企业的儿科医生薪资最高,达到17000,其次就是医药企业。所以但看工资水平的话,生物企业和医药企业更有诱惑力。

#"各类型单位儿科平均工资"
all_data[all_data['depType']=='儿科'].groupby('typeText')['salary'].count()

#drop删除科研究院的数据
erke_srl =all_data[all_data['depType']=='儿科'].groupby('typeText')['salary'].mean().drop(index='科研院校').sort_values()
erke_srl

bar = Bar("各类型单位儿科平均工资", width = 600,height=500)
bar.add("",erke_srl.index, np.round(erke_srl.values, 0), is_stack=False, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, is_label_show=True, xaxis_rotate=20)
bar.render('各类型单位儿科平均工资.html')
bar

相当工资,医院对学历、职称等要求如何?

在工资水平相同的情况下,公立医院本科的占比要比民营医院高,换句话说你如果是本科毕业的儿科生在公立医院拿到8-10K的概率要比民营医院要大得多。

all_data[(all_data['depType']=='儿科')&
        (all_data['salary']>8000)&
        (all_data['salary']<10000)&
        (all_data['typeText'].isin(['公立医院', '民营医院']))].groupby(['typeText', 'gradeText'])['id'].count()

grade_same1 = np.round(np.array([3, 31, 12, 1, 0]) / (3+31+12+1)*100, 1)
#grade_same1

grade_same2 = np.round(np.array([18, 21, 2, 0, 8]) / (18+21+2+8)*100, 1)
grade_same2

#相同工资水平下公立/民营医院对学历的要求百分比(8k-10k)
bar = Bar("相同工资水平下公立/民营医院对学历的要求百分比(8k-10k)", width = 600,height=600)
bar.add("公立医院",grade, grade_same1, is_stack=False, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, is_label_show=True, legend_top=30)
bar.add("民营医院", grade, grade_same2, is_stack=False, 
       xaxis_label_textsize=20, yaxis_label_textsize=14, is_label_show=True, legend_top=30)
bar

各地方省市对儿科医生的需求

从上面分析可知,全国范围内共有2359个儿科医生招聘岗位,通过进一部分析可知,广东省儿科招聘岗位最大,其次是北京、上海、江苏、浙江等经济发达地区。

# 对于province的处理结果还不是很满意,再处理以下
def get_province(data):
    province = ['北京', '天津', '河北', '山西', '内蒙古', '辽宁', '吉林', '黑龙江', '上海', '江苏', 
            '浙江', '安徽', '福建', '江西', '山东', '河南', '湖北', '湖南', '广东', '广西', 
            '海南', '重庆', '四川', '贵州', '云南', '西藏', '陕西', '甘肃', '青海', '宁夏', 
            '新疆', '台湾', '香港', '澳门', '国外']
    for i in province:
        if i in data:
            return i
all_data.loc[all_data['depType']=='儿科', 'province2'] = all_data.loc[all_data['depType']=='儿科', 'locationText'].apply(get_province)
#all_data['province2']

demand = all_data.loc[all_data['depType']=='儿科', 'province2'].value_counts()
demand

儿科医生的要求和福利

儿科医生的要求也进一步进行分类如儿科护士长、新生儿科、儿科临床医师。薪资福利有五险一金、房贴、工作餐、带薪年假。

from collections import Counter
from pyecharts import WordCloud

g = all_data.loc[all_data['depType']=='儿科', 'gradeText'].value_counts()
y = all_data.loc[all_data['depType']=='儿科', 'jobYearText'].value_counts()

l = all_data.loc[all_data['depType']=='儿科', 'levelText'].value_counts()
n = all_data.loc[all_data['depType']=='儿科', 'name'].value_counts()
p = all_data.loc[all_data['depType']=='儿科', 'positText'].value_counts()
t = all_data.loc[all_data['depType']=='儿科', 'typeText'].value_counts()

welfare= []
for i in all_data.loc[all_data['depType']=='儿科', 'welfare']:
    if len(i) > 0:
        welfare.extend(i)
w = pd.Series(Counter(welfare))
all = pd.concat([g, y, l, n, p, t, w])

name, value = all.index, all.values
wordcloud = WordCloud(width=800, height=800)
wordcloud.add("", name, value, word_size_range=[20, 80])
wordcloud

总结

通过以上分析可知,儿科以上在薪资、福利待遇是个不错的行业,但是它对职称和工作经验也有较高的要求。民营医院的招聘要求要更严格一些,生物企业、医药企业薪资更加诱惑。

大家看了有感兴趣的需要具体代码的可以私下交流,也希望各位能多多提供些宝贵意见。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值