数据分析与数据挖掘实践(2)——单因子探索分析与可视化

1. 以HR数据为例

1. 了解数据

1.倒入数据了解标题栏

import pandas as pd
df = pd.read_csv("/Users/chris/Desktop/Python Course/Show/HR.csv")
df.head(10)

2.数学基础

1.集中趋势

均值,中位数,众位数,分位数(4分位数)
Q1=(n+1)*0.25
Q2=(n+1)*0.5
Q3=(n+1)*0.75

2.离中趋势

标准差,方差
在这里插入图片描述

3.偏态与峰度

偏态系数(S) >0 正偏
偏态系数(S) <0 正偏
峰态系数(K)越大,顶越尖
正态分布 K=3在这里插入图片描述

4.分布概率

1.正态分布
2.卡方分布
3.T分布

5.抽样理论

1.抽样误差
在这里插入图片描述

6. 数据分类

定类数据:根据事物离散,无差别属性进行的分类
定序数据:界定数据的大小,但不能测定差值
定距数据:摄氏12度
定比数据:可以界定数据大小。身高体重

7.单属性分析

1.异常值分析:
a .连续异常值:上界和下界之外的是异常值在这里插入图片描述
可以直接舍弃或取边界值代替异常值

b.离散异常值:离散属性定义范围以外的所有值均为异常值。
舍弃或者直接用一个值来代替
c.知识异常值:在限定知识与限定范围外所有的值均为异常值。
2.对比分析:
a.绝对数比较
b.相对数比较
结构相对数:部分与整体进行比较
比例相对数:总体内用不同部分数值进行比较
比较相对数:不同互联网间的待遇水平
动态相对数:速度的比较
强度相对数:性质不同有相互联系的属性进行联合
c.时间维度比较
同比增长,环比增长
d.空间维度比较
c.经验与计划的比较
3.结构分析:
静态结构分析:部分和总体的关系
动态结构分析:以时间为轴,分析变化趋势
4.分布分析:
直接获得概率分布
是不是正态分布
极大似然估计

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值