本文摘选自《用Python学数据分析》第十五篇:数据特征分析,为了排版好看,我删去了代码部分。如需要完整、系统地学习数据分析,欢迎支持。
回顾前文
在数据分析基础这一部分,我们已经学习了数据整合、数据清洗、可视化数据探索性分析。由于数据分析本身也在与机器学习、数据挖掘进行融合,探索性数据分析变得尤为重要,提高数据质量、发现变量间关系、选取恰当特征变量这些都是撰写数据分析报告和进行数据挖掘和建模的基础。
数据特征分析-理论
数据特征分析在数据质量分析之后,主要通过绘制图表、计算特征分布、统计量、相关性,特征分析可以分为以下几种:
分布分析:分布分析能揭示数据的分布特征和分布类型。对于定量数据,可通过绘制频率分布表、绘制频率分布直方图、绘制茎叶图了解其分布。对于定性分类数据,可用饼图和条形图直观地显示分布情况。
对比分析:把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。
统计量分析:用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析
相关性分析:分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。
数据分析业务背景
现有员工离职数据集,数据主要包括影响员工离职的各种因素(工资、绩效、工作满意度、参加项目数、工作时长、是否升职等)以及员工是否已经离职的对应记录。
看一下数据
我们需要分析这14999个样本以及10个特征, 通过现有员工已经是否离职的数据, 寻找员工离职原因。
数据特征分析
1、对公司的满意度
满意度分值比较来看,离职员工的分值普遍低于非离职的员工,最低分值的分布都是离职员工。离职员工大部分对公司评价较低,均值0.4左右,但是也有部分对公司评价很高(均值0.8),这也合情合理,要么是气愤愤的离职,要么是感谢老东家的培养。
2、最新考核评估
就中位数而言, 离职人员最高考核标准比在职人员高,最低考核标准比其低。离职员工的绩效两极分化,离职人员的最新评价相对较高, 但其波动也大。
最新考核评估分布和对公司的满意度极为相似,经常拿高绩效的员工更倾向于给公司更高的满意度分数。
3、工作年限、每月平均工作时长
在各工作年限中, 离职人员较集中于3, 4, 5, 6年, 而6年以上则相对稳定。可能这些高薪的优秀人士在公司的发展遇到瓶颈,同时也对过长的工作时间表示不满,所以选择了离职。
就中位数而言, 离职人员工作时长比较多, 且离职人员工作时长整体波动较大。另外离职人员最高工作时长比在职人员高,最低工作时长比其低。
4、工作事故、五年内是否升职、工资水平
少部分出现工作事故, 且其中有较少部分人离职。五年内无升职的员工,离职率远大于已升职的员工。薪资分为三个水平: 低等, 中等, 高等。低等水平离职人数最多, 所占比例也最大, 而高等则最少。
欢迎和我一起完整、系统学习数据分析.