变量类型与分布类型
名义变量:
等级变量(有序分类变量):
连续型变量:
变量的分布类型是对实际变量分布的一个概括和抽象。经常遇到的分布有二项分布、正态分布、卡方分布、t分布、f均匀分布和泊松分布等。
探索变量分布的意义在于:只要知道某个变量服从某个分布,就可以很快地了解变量在相应取值时的概率(分布是从无数个变量频率得到的,对其统计特性有了深入的分析),并且结合相应的业务场景做出解释。
正太分布的特性: 均值 = 中位数 = 众数
正太分布的3\sigma准则。
分类变量的统计量
名义变量和等级变量统称为分类变量。
名义变量是指变量值不能比较大小的分类变量,例如性别男和女,并不能说女性高于男性或者说男性高于女性。这类变量还有民族、职业、行业(采掘业/制造业等)。名义变量有两种统计量,分别是频次、百分比。
等级变量指变量值有等级关系,可比较大小,例如教育程度(小学<初中<高中<大学)、产品质量(低<中<高)等。等级变量有四类统计量,分别是频次、百分比、累计频次、累计百分比。
连续变量的分布与集中趋势
描述