R语言(五)——横截面数据分类:经典方法(logistic、probit、判别分析)

目录

一、数据

二、logistic回归

1.拟合

2.预测

三、probit回归

四、经典判别分析(线性、混合线性、灵活线性)

五、交叉验证与比较


一、数据

脊柱数据(Column_2C.csv、Column_3C.csv)有两个版本,区别在于分为两类还是3类。数据可以从网站http://archive.ics.uci.edu/ml/datasets/Vertebral+Column下载,不过是.dat文件,需要进行相应的转换

参考我这篇博客Python将.dat文件转换成.csv文件。或者直接下载我上传的文件,是已经对格式和数据经过处理,可以直接进行分析的csv文件。

数据具有6个自变量(生物力学特征V1-V6,都是数量),和类别(V7)

两个数据内容分别为

类别数量(人)代码
C2
正常100NO
不正常210AB
C3
正常100NO
椎间盘突出60DH
腰椎滑脱150SL

二、logistic回归

1.拟合

#logistic
#拟合
w2=read.csv("column_2C.csv")
a=glm(V7~.,w2,family="binomial") #默认logit连接函数
b=step(a)   #做逐步回归筛选变量
summary(b)  #结果汇总

在逐步回归过程中,变量3和4被淘汰,输出的AIC为188.95

2.预测

通过逐步回归或其他方法挑选的模型可能有助于解释模型,但不一定对预测有帮助。因此在我们分析的步骤中,还是利用逐步回归之前的a拟合模型

R自动把p(概率)作为排序靠后的类别的概率,于是运行代码levels(w2$V7)时,得到“AB”“NO”,p指的是NO的概率(R按照字典排序)

按照总误判率来寻找p值得阈值的函数如下:

BI=function(D,w,ff,fm="binomial"){
  a=glm(ff,w,family=fm)
  z=predict(a,w,type="response")
  ee=NULL
  for(p in seq(.1,.9,.01)){
    u=rep(levels(w[,D])[2],nrow(w))
    u[!(z>p)]=levels(w[,D])[1]
    e=sum(u!=w[,D])/nrow(w)
    #e=sum(u=="NO"&w[,D]=="AB")/sum(w[,D]=="AB")
    ee=rbind(ee,c(p,e))
  }
  I=which(ee[,2]==min(ee[,2]))
  P=ee[min(I),1]
  return(ee[min(I),])
}

其中D代表因变量是第几个变量,w为使用数据,ff是拟合公式,fm是模型。在此函数中,p值从0.1到0.9按0.01的间隔搜索。调用函数

p.2C=BI(7,w2,V7~.)

得到阈值0.63,误判率0.1322。运行以下代码查看判别结果

#判别结果
D=7;p=p.2C[1];a=glm(V7~.,w2,family = "binomial")
z=(predict(a,w2,type="response")>p)
u=rep(levels(w2[,D])[2],nrow(w2))
u[!(z>p)]=levels(w2[,D])[1]
zz=table(w2[,7],u);   #混淆矩阵
sum(diag(zz))/sum(zz)  #正确率

混淆矩阵如图,正确率为0.871

还可以修改函数以改进效果,可以改变e的判别方式

三、probit回归

由于该数据的变量V6有出错信息,但我们又不愿意去掉该变量,因此代码中改用probit选项,此时不能计算AIC,也不能用逐步回归选择变量,但还是用BI()函数选择阈值

D=7;w=w2;ff=V7~.;fm=quasibinomial(link="probit")
pp.2C=BI(D,w2,ff,fm)
D=7;p=pp.2C[1];a=glm(V7~.,w2,family=fm)
summary(a)
z=(predict(a,w,type="response")>p)
u=rep(levels(w[,D])[2],nrow(w))
u[!(z>p)]=levels(w[,D])[1]
zz=table(w2[,7],u);   #混淆矩阵
sum(diag(zz))/sum(zz)  #正确率

得到的probit回归的估计系数及近似正态z检验的结果和分类展示如下,可知训练出来的模型:

四、经典判别分析(线性、混合线性、灵活线性)

三者代码基本相似,只是部分地方有微小差别

#线性判别分析
library(MASS)
w2=read.csv("column_2C.csv")
a=lda(V7~.,data=w2)
b=predict(a,w2)$class
zz=table(w2[,7],b)  #混淆矩阵
sum(diag(zz))/sum(zz)  #正确率

#混合线性判别分析
library(mda)
w2=read.csv("column_2C.csv")
set.seed(1010)
a=mda(V7~.,data=w2)
b=predict(a,w2)
zz=table(w2[,7],b)  #混淆矩阵
sum(diag(zz))/sum(zz)  #正确率

#灵活线性判别分析
library(splines)
library(Matrix)
library(fda)
w2=read.csv("column_2C.csv")
set.seed(1010)
a=fda(V7~.,data=w2)
b=predict(a,w2)
zz=table(w2[,7],b)  #混淆矩阵
sum(diag(zz))/sum(zz)  #正确率

五、交叉验证与比较

把数据随机分成Z份(此处Z=10),使用以下函数划分数据:

#产生数据集
Fold=function(Z=10,w,D,seed=7777){
  n=nrow(w);d=1:n;dd=list()
  e=levels(w[,D])
  t=length(e)
  set.seed(seed)
  for(i in 1:t){
    d0=d[w[,D]==e[i]]
    j=length(d0)
    ZT=rep(1:Z,ceiling(j/Z))[1:j]
    id=cbind(sample(ZT,length(ZT)),d0)
    dd[[i]]=id
  }
  #每个dd[[i]]是随机1:Z及i类的下标集组成的矩阵
  mm=list()
  for(i in 1:Z){
    u=NULL
    for(j in 1:t)u=c(u,dd[[j]][dd[[j]][,1]==i,2])
    mm[[i]]=u  #mm[[i]]为第i个下标集
  }
  return(mm)  #输出Z个下标集
}

运行logistic、lda、mda、fda判别分析的交叉验证,代码如下:

BI=function(D,w,ff,fm="binomial"){
  a=glm(ff,w,family=fm)
  z=predict(a,w,type="response")
  ee=NULL
  for(p in seq(.1,.9,.01)){
    u=rep(levels(w[,D])[2],nrow(w))
    u[!(z>p)]=levels(w[,D])[1]
    e=sum(u!=w[,D])/nrow(w)
    #e=sum(u=="NO"&w[,D]=="AB")/sum(w[,D]=="AB")
    ee=rbind(ee,c(p,e))
  }
  I=which(ee[,2]==min(ee[,2]))
  P=ee[min(I),1]
  return(ee[min(I),])
}

#读数据
w=read.csv("column_3C.csv")
D=7;Z=10
mm=Fold(Z,w,D,7777)
ff=paste(names(w)[D],"~.",sep="")
ff=as.formula(ff)  #logistic回归用最优阈值
p=BI(D,w,ff)[1]
ERROR=matrix(0,Z,4)
J=1
for(i in 1:Z){
  m=mm[[i]]
  a=glm(V7~.,w,family="binomial")
  z=(predict(a,w[m,],type="response")>p)  #测试集预测
  u=rep(levels(w[m,D])[2],length(m))
  u[!z]=levels(w[m,D])[1]
  ERROR[i,J]=sum(w[m,D]!=u)/length(m)
}
J=J+1
for(i in 1:Z){
  m=mm[[i]]
  a=lda(ff,w[-m,])
  ERROR[i,J]=sum(w[m,D]!=predict(a,w[m,])$class)/length(m)
}
J=J+1
for(i in 1:Z){
  m=mm[[i]]
  set.seed(1010)
  a=mda(ff,w[-m,])
  ERROR[i,J]=sum(w[m,D]!=predict(a,w[m,]))/length(m)
}
J=J+1
for(i in 1:Z){
  m=mm[[i]]
  a=fda(ff,w[-m,])
  ERROR[i,J]=sum(w[m,D]!=predict(a,w[m,]))/length(m)
}
ERROR=data.frame(ERROR)
names(ERROR)=c("logistic","lda","mda","fda")
#ERROR
ME=apply(ERROR,2,mean)

得到各种方法的误判率和平均误判率

三分类数据同上,只需改变读取的数据集。同时三分类不能使用logistic方法

  • 5
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值