定义
是指将客体(问卷、特征、现实)按研究要求进行分类编组,使得同组客体之间的差别小于各种客体之间的差别,进而进行分析研究的方法。
总而言之,分组分析就是将总体数据按照某一特征性质划分成不同的部分和类型进行研究,从而深入分析其内在规律。
为什么要做分组分析?
对于大量的数据,如果不进行分组是很难发现其中规律,找到不同组别之间的关系,从而更好地对比,如下图的人口分布图,如果不对人口的年龄段进行分组,是没法进行分析的。
怎么做分组分析?
分组分析常用的统计指标是计数、求和、平均值等。一般是利用条形图绘制的,绘制条形图主要是利用seaborn模块的barplot()和countplot()条形图函数。
barplot(条形图)
条形图表示数值变量与每个矩形高度的中心趋势的估计值,并使用误差线提供关于该估计值附近的不确定性的一些指示。
代码实现如下:
结果如下:
countplot()绘制
一个计数图可以被认为是一个分类直方图,而不是定量的变量。基本的api和选项与barplot()相同,因此您可以比较嵌套变量中的计数。(工作原理就是对输入的数据分类,条形图显示各个分类的数量)。
用法如下:
seaborn.countplot(x=None,y=None,hue=None,data=None,order=None,hue_order=None,orient=None,color=None,palette=None,saturation=0.75, dodge=True, ax=None, **kwargs)