应用场景:
例如一个分类指标(0,1)与连续变量是否有关系。比如我们开卡,是否会开卡(0,1)与每月的月均支出金额的关系
应用条件:
- 两个观测样本独立
- 每一组都符合正态分布
- 在数据量很大的情况下,抽取3000的样本量,p值<1%就说明有关系。(简单随机抽样即可,分层随机抽样最好)
当然,决策树也可以用来直接判断(不过在目前情况下大可不必)
代码示范:
import pandas as pd
import os
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
os.chdir