数据探索时涉及到的三个函数为密度函数、分布函数与生存函数,其中样本的分布函数的形态、生存函数的形态基本没有太大变化,然而样本的密度函数分布形态却有着很大的差异,所以一般在进行数据分析领域提到分布时,指的都是直方图所描述的密度函数。
依据密度函数的形状,可以将数据分布大致分为四种,需要分析师能够做到 看到每种分布图 就能解读出分布背后所隐含的信息,以下是我对这四种密度函数分布形态的理解:
一、钟型分布
生活中正常、平常的事件,基本上都服从钟型分布,分布特征为两头小中间大,即靠近中间的变量值分布的次数多、靠近两端的变量值分布次数少,宛如钟型。这种分布迎合了数据分析中绝大多数的情况,所以大部分生活中的情况都可以假定服从钟型分布。
钟型分布分为两种类型,对称钟型和非对称钟型,