目录
前言
本文基于某招聘平台的数据分析师岗位招聘信息,首先利用pandas对数据进行处理与分析,然后利用pyecharts对各地区的招聘数量、平均工资、经验学历需求和招聘公司所在领域进行可视化的制图。
一、导入模块
import numpy as np
import pandas as pd
from pyecharts.charts import *
from pyecharts import options as opts
from pyecharts.globals import ThemeType
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'
二、数据处理与分析
1.读取数据
df = pd.read_csv('xx直聘 数据分析师岗位 分析可视化/xx直聘数据分析师.csv')
df.head()
2.查看数据表格描述
df.info() #查看整体性描述
df.describe()
在这里发现count“福利”的后面几行是不满300的,说明数据缺失,要对缺失值进行处理。
3.处理重复值
df.duplicated().sum() #查看重复值
表面存在3处重复值。下面将重复值删除。
df.drop_duplicates(inplace = True) #删除重复值
4.处理缺失值
df.isnull().sum() #查看空值
df[df['福利'].isnull()] #查看“福利”空值所属信息
df['福利'].fillna('无', inplace=True) #用“无”填充福利列空值
“福利”列空值有26个,查看数值为空的列,用“无”将其填充。
df.rename(columns={'tags1':'涉及1','tags2':'涉及2','tags3':'涉及3','tags4':'涉及4','tags5':'涉及5','tags6':'涉及6'},inplace=True) #选择性重命名列名
df
df.fillna('未知',inplace=