1.分布分析
分布分析研究数据的分布特征和分布类型,分定量数据、定性数据区分基本统计量。是比较常用的数据分析方法,也可以比较快的找到数据规律。对数据有清晰的结构认识。
数据的 分布 ( distribution ),描述了各个值出现的频繁程度。
表示分布最常用的方法是 直方图 ( histogram ),这种图用于展示各个值出现的频数或概率。频数 指的是数据集中一个值出现的次数。概率 就是频数除以样本数量n。频数除以n即可把频数转换成概率,这称为 归一化 ( normalization )。归一化之后的直方图称为 PMF ( Probability Mass Function ,概率质量函数),这个函数是值到其概率的映射。
2.术语
• 区间 ( bin )
将相近数值进行分组的范围。
• 条件概率 ( conditional probability )
某些条件成立的情况下计算出的概率。
• 分布 ( distribution )
对样本中的各个值及其频数或概率的总结。
• 频数 ( frequency )
样本中某个值的出现次数。
• 直方图 ( histogram )
从值到频数的映射,或者表示这种映射关系的图形。
• 归一化 ( normalization )
将频数除以样本数量得到概率的过程。
• 异常值 ( outlier )
远离集中趋势的值。
• 概率 ( probability )
频数除以样本数量即得到概率。
• 概率质量函数 ( Probability