【数据分析】人力资源分析—各国女性劳动参与水平

霹雳小鳗鱼

已于 2022-07-29 15:23:05 修改

阅读量1.3k

点赞数

文章标签：数据分析 python

于 2022-07-25 13:05:53 首次发布

本文链接：https://blog.csdn.net/qq_56907734/article/details/125913455

版权

联合国发布的《2020年世界妇女：趋势和数据》报告显示，全球只有不到50％处于工作年龄的妇女进入了劳动力市场，这一数字在过去的25年里几乎没有变化。妇女承担了大量的无偿家务和护理工作，限制了她们的经济潜力；同时，经济赋权、教育程度、生育的禁锢、新冠大流行等原因更对妇女参加工作劳动造成巨大影响。

该数据集(female-labor-force-by-age.csv)主要收录了A-Z排列的各国女性在1990-2030年间按年龄组分类的劳动参与人数（部分数据为预测值）。本文对数据集的分析将不先做结论的假设预测，而是进行EDA分析，通过可视化来显示数据之间的关联,从而挖掘出影响各国女性劳动力参与水平的因素及程度。

一、数据预处理

由于源数据是以分号为分隔符的csv文件，故在读入python时需要注意。

import pandas as pd
import numpy as np
import os
import seaborn as sns
import matplotlib as plt
import pyecharts
from chart_studio import plotly as py
import cufflinks as cf
cf.set_config_file(offline=True, theme='ggplot')
from pyecharts.charts import Map,Timeline
from pyecharts import options as opts
from pyecharts.faker import Faker
from pyecharts.globals import ChartType, SymbolType
df=pd.read_csv('D:/KDD/female_labor_force_by_age.csv', sep = ';')

表内提供了7585条数据。

缺失值处理
1. ```
df.isnull().any()
df.loc[df.isnull().any(axis=1)].index
```
  首先检测存在空值的字段，只有国家和地区代码这个字段有缺失值；原本可以使用正则表达式或pandas的replace()函数补充缺失值，但由于国家代码较多又需要逐一查询名称&#