多分类广义线性模型
—因变量是多分类变量
【例】研究者对A和B两城市妇女非黑色素瘤及皮肤癌发病情况进行比较,以是否出现非黑色素瘤及皮肤癌早期症状为依据,判定其是否发病,所得资料如下表所示,试分析城市和年龄组对非黑色素瘤及皮肤癌发病是否有影响。(本例引用自陈希孺.广义线性模型(二)[J].数理统计与管理, 2002,21(6):57-64)
表1 A和B两城市妇女非黑色素瘤及皮肤癌发病情况
操作步骤 1 输入原始数据以15-24岁为年龄组1,25-34岁为年龄组2,35-44岁为年龄组3,45-54岁为年龄组4,55-64岁为年龄组5,65-74岁为年龄组6,75-84岁为年龄组7,84岁以上为年龄组8;城市A为1,城市B为2;发病为1,未发病为0,如下图所示。
图1 原始数据输入结果
敲黑板讲重点
需要注意的是,在原始数据输入时,需要设置“是否发病”的变量,用于表明后面的频数是发病或是未发病。
2 对个案进行加权图2 对个案进行加权
图3 选择频数进行加权
3 调用命令图4 广义线性模型的命令调用
4 选择相关项目首先因非黑色素瘤及皮肤癌发病是小概率事件,服从Poisson分布,则选择“泊松对数线性”为模型类型。
图5 模型类型选项
在响应对话框中,因变量为“是否发病”。
图6 响应的选项
预测变量的选项框中将“城市”和“年龄组”两个变量放入因子中。
图7 预测变量的选项
模型选项框中,选择变量“城市”、“年龄组”作为主效应。
图8 模型效应的选项
图9 广义线性模型估算的选项
图10 广义线性模型统计的选项
结果解读 首先输出的结果为模型中的分类变量和连续变量的描述信息和拟合优度情况。系统根据数据建立的模型,似然比卡方值为2940.825,P值小于0.001,模型成立。
模型效应的检验中,变量城市的P值小于0.001,说明不同城市,发病情况存在差异。变量年龄组的P值也小于0.001,则表明不同年龄组的女性,发病情况也有差别。
从参数估计的结果来看,城市和年龄对妇女非黑色素瘤及皮肤癌发病情况均有影响。城市A妇女的发病情况是城市B的OR=exp(-0.730)倍。每个年龄组与年龄84以上组做比较的结果显示,回归系数均为负数,说明年龄84以上组的发病最高,并且,随着年龄的增长,回归系数的绝对值逐渐减小,说明年龄越大,发病的可能性就越高。
论文表述 研究表明,城市和年龄组对非黑色素瘤及皮肤癌发病有影响,P值均小于0.001,城市A的妇女比城市B的妇女更不易患病(OR=exp(-0.730)),并且,随着年龄的增长,发病的可能性就越高,84岁以上妇女人群有更大可能性发病。
微信编辑:陈卓
原创人员:何少平