昨天介绍了两连续变量的相关分析,今天来说说连续变量与分类变量(二分)之间的检验。
通俗的来讲,就是去发现变量间的关系。
连续变量数量为一个,分类变量数量为两个。
总体:包含所有研究个体的集合。
样本:经过抽样总体中的部分个体。
均值:变量的数值之和除以变量的个数。
极差:变量的最大值与最小值之差。
方差,标准差反映数据的离散程度,其值越大,数据波动越大。
/ 01 / 正态分布
在实际情况里,总体的信息往往难以获取,所以需要抽样,通过样本来估计总体。
点估计和区间估计是通过样本来估计总体的两种方法。
那么样本是否能够代表总体就是关键点,样本需要具有代表性。
点估计:用样本统计量去估计总体参数。
区间估计:不同于点估计,能够提供待估计参数的置信区间和置信度。
区间估计用到了中心极限定理,表现为如果抽样多次,每次抽样都有一个均值,产生的多个均值服从正态分布。
就可以利用正态分布的性质,推断出样本均值出现在某区间范围的概率。
正态分布:关于均值左右对称的,呈钟形。且均值和标准差具有代表性。均值=中位数=众数。
在现实生活中,男女身高(性别有影响需区分开)、体重、考试成绩都是属于正态分布。
影响它们的变量都是独立互不影响的。
接下来对豆瓣电影TOP250里的电影评分进行分析。
首先读取数据。
import matplotlib.pyplot as plt
from scipy import stats
import seaborn as sns
<