y是衔接需求的,y往往是1.预测误差 2.成本高 3.抽象 4. 业务危机 5. 业务增益
相关分析
plt.scatter(x='运动时间',y='体重',s=100,data=data,alpha=0.3)
sns.heatmap(data.corr(method='spearman'),cmap='GnBu_r')
sns.pairplot(data=data1.iloc[:,[0,1,2,3,4,5]],vars=['运动时间','骑行时间','体重'],hue='亲缘')
散点图主要看三点:1.相关系数 r 2. 斜率(回归) 3.异常值
相关系数在0.1以内几乎可认为不相关
相关系数在0.1~0.35之间为低相关
相关系数在0.35~0.5之间为中等弱相关
相关系数在0.5~0.7之间为中等强相关
相关系数在0.7~0.9之间为高相关
相关系数在0.9~1之间为高危相关
相关系数公式 y=βx ,β为相关系数的标准化后取值
线性回归分析
小数据
import statsmodels.formula.api as smf
result=smf.ols('体重~饮食+性别+亲缘+运动时间+骑行时间',data=data1).fit()
result.summary()#汇总结果
预测
x_new=pd.DataFrame([{'饮食':&