大家好,基于Python的数据科学实践课程又到来了,大家尽情学习吧。本期内容主要由程茜与政委联合推出。
5.4 统计假设检验在上一节中的模型参数估计中也会涉及到假设检验,但是这都是模型拟合过程中自动给出的结果。本章专门以方差分析为例展示Statsmodels模块的另一项主要功能。首先,大家思考这么一个问题。人们在选火锅团购产品时都习惯于在APP页面看每家店铺的评分,毕竟过来人的经验还是需要参靠地。细心的吃货就会问个问题:不同的评分团购产品的销量是否有差异?这就涉及到统计中的假设检验问题。用什么方法可以解决这个问题?方差分析。
方差分析是利用样本数据检验两个或两个以上总体均值间是否有差异的一种方法。根据研究变量的个数不用,分为单因素方差分析和多因素方差分析。如果我们要解决多个总体的均值是否有差异的检验问题,这就是单因素方差分析;如果是多个自变量对因变量影响,就是多因素方差分析。
5.4.1 问题提出![a5d9c494a7dd65d1ccfd0c965e41a401.png](https://img-blog.csdnimg.cn/img_convert/a5d9c494a7dd65d1ccfd0c965e41a401.png)
一元单因素方差分析是研究单独一个因素对因变量的影响。首先根据这个单独的因素的不同水平对因变量进行分组,计算其组间和组内方差。之后,对各组的均值比较,最终对每个分组均值相等这个原假设进行检验。
以火锅团购数据为例,因变量是销量(购买人数)。每销售一单,客户都会对其进行评分。此时,我们可以来查看下数据集中的评分,如例1。
例1 火锅数据集
data_shop.head()
图1 数据前6行
对因变量购买人数做对数运算,并将“评分”变量转化为分类变量并给出其新的标签:
<