应用场景:
例如一个分类指标教育等级(等级变量),如(大学 - 1,硕士 - 2,博士 - 3)与连续变量每月的月均支出金额是否相关。
应用条件:
观测样本独立
每一组都符合正态分布
在数据量很大的情况下,抽取3000的样本量,p值<1%就说明有关系。(简单随机抽样即可,分层随机抽样最好)
当然,决策树也可以用来直接判断(不过在目前情况下大可不必)
有木有觉得以上描述特别熟悉呀~,没有错,其实方差分析和我们双样本T检验是亲戚。应用场景和应用条件非常类似。
import pandas as pd
import os
import numpy as np
import matplotlib.pyplot as plt
os.chdir('C://Users//jane//Desktop'