数理分析与数据计算

数理统计:
    1.描述统计
    2.推断统计 

1.描述统计
    1.什么是描述统计?
        描述统计 从数据中提取 变量的主要信息

    2.从数据中提取 变量的主要信息 =》 【指标】 统计量
    统计量:
        1.频率与频数 
        2.集中趋势分析:
            均值、中位数、众数、分位数
        3.离散程度分析:
            极差、方差、标准差
        4.分布形状:
            偏度、峰度
    3.提取 变量:
        1.数值变量 【就是一个table 中的 column  是数值类型】
        2.类别变量 【就是一个table 中的 column  是非数值类型 string 】 

1.频率与频数
    1.适用场景 =》类别变量
    2.频数:就是 每个不同的取值出现的次数
    3.频率:每个不同的取值出现的次数 与总次数的比值 用%表示

    意义:
        类别变量中,每个取值出现的次数
    
    eg:
        A班级 及格 30人 , B班级及格 35人 能说明()
            1.A班级 成绩更好
            2.B班级 成绩更好
            3.成绩差不多
            4.无法确定哪个班级成绩好
        
        分析:
            1.类别变量  =>  及格
            2. 频数 =》及格人数 


1.集中趋势分析:
            均值、中位数、众数、分位数

均值: 一组数据的总和 除以 数据的个数 
    
    均值 = 和 / 个数 

中位数:一组数据的 按照 升序进行排列 最中间的位置 就是 中位数 

众数: 一组数据 出现的次数最多的值


注意:
    1.数值变量: 
        均值、中位数   表示一组数据 的 集中程度
    2.类别变量:
        众数 集中程度
    
    3.分布:  
        正太分布:
        偏态分布:    
            左偏分布: 均值在 最左边 
            右偏分布:均值在 最右边 
    4.影响:
        1.均值 =》 受 极端值 影响 、
        2.中位数 众数  不受极端值影响 【稳定】
        3.众数 一组数据 中 可能不是唯一的 【单拿出来 是不行的】


        问: 
            国家城市统计居民收入水平 , 使用那个指标衡量 更合适 ?
                1.均值
                2.中位数
                3.中位数或者众数 
                4.都可以 
        
        意义: 
            衡量数据综合水平 

            思考: 
                缺失值 填充 如何处理?
                    1.数据  =》 0  
                    2. 数据 去掉 
                    3. 补充 =》 中位数

分位数:
    通过 (n-1 ) 分位  划分 n个区间
    每个区间数据的个数是相等的 (近似相等)

    意义: 
        利用分位数 +  极值  可以判断 数据的分布状态

集中趋势分析:
    弊端 :
         5 5 5 5        =》  5
         0 -5 20 5         =》 5
         -100 100 120 -100 =》5

离散程度分析:
    极差 、方差 、标准差 
极差:一组数据中 ,最大值 - 最小值 
方差: 一组数据中  每个元素 与 均值的偏离 大小
标准差:就是方差的开方

意义: 
    方差/标准差:
        1.数据的分散性 
            越大  数据越分散
            越小  数据越集中
        2.数据的波动性
            越大  波动越大
            越小   波动越小

分布形状:
    偏度、峰度 

1.偏度:
    倾斜程度的度量 
    eg:    
        数据 -》 正态分布 偏度就是 0 
        数据 -》 左偏分布 偏度就是 小于0  
        数据 -》 右偏分布 偏度就是  大于0  

2.峰度:
    描述 数据分布 陡缓的程度 
    1.标准 正态分布 峰度 0 
    2.如果 峰度 > 0 :
        数据在分布上 数据比 标准 正态分布 密集  =》 方差比较 小 
    2.如果 峰度 < 0 :
    数据在分布上 数据比 标准 正态分布 分散  =》 方差比较 大

    意义: 
        1.  =》 数据的分布特征 
        2. 数据正太校验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值