1. 以HR数据为例
1. 了解数据
1.倒入数据了解标题栏
import pandas as pd
df = pd.read_csv("/Users/chris/Desktop/Python Course/Show/HR.csv")
df.head(10)
2.数学基础
1.集中趋势
均值,中位数,众位数,分位数(4分位数)
Q1=(n+1)*0.25
Q2=(n+1)*0.5
Q3=(n+1)*0.75
2.离中趋势
标准差,方差
3.偏态与峰度
偏态系数(S) >0 正偏
偏态系数(S) <0 正偏
峰态系数(K)越大,顶越尖
正态分布 K=3
4.分布概率
1.正态分布
2.卡方分布
3.T分布
5.抽样理论
1.抽样误差
6. 数据分类
定类数据:根据事物离散,无差别属性进行的分类
定序数据:界定数据的大小,但不能测定差值
定距数据:摄氏12度
定比数据:可以界定数据大小。身高体重
7.单属性分析
1.异常值分析:
a .连续异常值:上界和下界之外的是异常值
可以直接舍弃或取边界值代替异常值
b.离散异常值:离散属性定义范围以外的所有值均为异常值。
舍弃或者直接用一个值来代替
c.知识异常值:在限定知识与限定范围外所有的值均为异常值。
2.对比分析:
a.绝对数比较
b.相对数比较
结构相对数:部分与整体进行比较
比例相对数:总体内用不同部分数值进行比较
比较相对数:不同互联网间的待遇水平
动态相对数:速度的比较
强度相对数:性质不同有相互联系的属性进行联合
c.时间维度比较
同比增长,环比增长
d.空间维度比较
c.经验与计划的比较
3.结构分析:
静态结构分析:部分和总体的关系
动态结构分析:以时间为轴,分析变化趋势
4.分布分析:
直接获得概率分布
是不是正态分布
极大似然估计