I have posted this question before, but I believe that I had not explained the problem well and that it was over-complicated, so I deleted my previous post and I am posting this one instead. I am sorry if this caused any inconvenience.
我也提前道歉,因为无法提供示例数据,我使用的是非常大的表,而我正在尝试做的更简单的示例,因此提供示例数据无济于事 . 它一直对我有用,直到现在 . 所以我只是试图了解可能存在的问题 . 但如果有任何方法可以提供更多信息,请告诉我 .
所以,我有一个对应于响应变量的向量和一个预测变量表 . 响应向量是数字,预测变量(表的列)是二进制格式(0和1) .
我使用响应向量和预测变量表运行glm函数(多元线性回归):
fit
coeff
当我过去这样做的时候,我会提取回归系数的向量,用它来进一步分析 .
问题是现在回归返回一个缺少某些值的系数向量 . 基本上一些预测变量根本不归因于glm的系数 . 但是没有错误消息 .
模型的摘要看起来很正常,但是我提到的一些预测变量缺失了 . 大多数其他预测变量都分配了数据(系数,p值等) . 模型中缺少约30个预测变量,超过200个 .
我尝试过使用不同的响应变量(向量),但我遇到了同样的问题,尽管缺失的预测因素取决于响应向量...
关于可能发生的事情的任何想法?我认为如果某些变量的方差为0,就会发生这种情况,但我已经检查过了 . 表中也没有NA值和缺失值 .
什么可能导致glm忽略/删除一些预测变量?
欢迎任何建议!
EDIT: 我发现被删除的预测变量的值与另一个预测变量相同 . 应该仍然有一种方法可以保留它们,例如它们会得到相同的回归系数