一、SPSS操作一般路径
分析
- 广义线性模型:少量数据
- 回归 ——二元逻辑
直销——选择方法
二、SPSS查看数据情况
1、看列
分析——报告——代码本
1)数字类型
2)分Y、X
Y字段测量类型比较重要;X的描述比较重要
2、看行
1)小型数据——统计模型
2)大型数据——挖掘模型
注1:
1、逻辑分析y(分类),{0,1},{0,1,2}需要基于环境选择
2、2个人不谈序
3、最大/最小<8 一般数据
三、Logistic一般分析思路
1.图形——条形图:看占比分布有无规律
2.相关——交叉表(卡方分析)
- 交叉表____statistic_____卡方:独立性卡方检验
- 交叉表__statistic__McNemar:配对卡方检验:评价一致性
3、logistic回归
3.1 重点关注:
1)分类表,总体百分比,敏感度
2)大方向看方差分析(输出数据第一个表):Ho:β1=β2=β3=0
小方向看卡方(自变量的P):H0:β1=0; β2=0
3)回归模型Ln(P/(1-P) = β0+β1*X
注2:
1、R2不重要,是伪R2
2、logistic然似比(P/(1-P))的特性,适合于比较极端的情况
3、or(风险度指标)=(P/(1-P)) / (P1/(1-P1))
4、gamma(相关)=(or-1)/(or+1)
3.2 调整
去掉 小方向看卡方,自变量的P>0.05的字段 重新建模
4、修正
1)哑变量(当自变量为多职业等情况)
创建虚拟变量,将一列删除,信息仍为等量
2)工具变量法 (设置一个字段 用以寻找填补自变量)
敏感度改进,做一个改进敏感度的“标识”字段,(错误标识)
找出同“标识”高度相关的字段(定制表,卡方分析),加入logistic模型中重新建模
5、应用——单结构、整体结构、预测老样本、预测新样本
**单结构:**其他条件相同时,一个X对Y的取值影响 (寻找某一因素的影响)
**整结构:**一串X对Y的取值影响(建立规则)
注3:
1、Logistic模型中,异常值敏感度不大
2、小样本一般取 5%-20%