分布直方图分析概率_数据特征分析·分布分析

分布分析是数据科学中的重要方法,用于研究数据分布特征和类型。直方图作为最常见的表示工具,展示了各值的频数或概率。通过归一化形成PMF,即概率质量函数。本文涉及区间、条件概率、异常值等相关概念,并以二手房数据为例,探讨参考首付和总价的极差,揭示数据的稳定性和分布特性。
摘要由CSDN通过智能技术生成

32ce700b01f165c0605505d748c64e5c.png

1.分布分析

分布分析研究数据的分布特征分布类型,分定量数据、定性数据区分基本统计量。是比较常用的数据分析方法,也可以比较快的找到数据规律。对数据有清晰的结构认识。

数据的 分布 ( distribution ),描述了各个值出现的频繁程度。

表示分布最常用的方法是 直方图 ( histogram ),这种图用于展示各个值出现的频数或概率。频数 指的是数据集中一个值出现的次数。概率 就是频数除以样本数量n。频数除以n即可把频数转换成概率,这称为 归一化 ( normalization )。归一化之后的直方图称为 PMF ( Probability Mass Function ,概率质量函数),这个函数是值到其概率的映射。

2.术语

• 区间 ( bin )

将相近数值进行分组的范围。

• 条件概率 ( conditional probability )

某些条件成立的情况下计算出的概率。

• 分布 ( distribution )

对样本中的各个值及其频数或概率的总结。

• 频数 ( frequency )

样本中某个值的出现次数。

• 直方图 ( histogram )

从值到频数的映射,或者表示这种映射关系的图形。

• 归一化 ( normalization )

将频数除以样本数量得到概率的过程。

• 异常值 ( outlier )

远离集中趋势的值。

• 概率 ( probability )

频数除以样本数量即得到概率。

• 概率质量函数 ( Probability

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值