一、背景
数据集展示了X市常住外来人口的基本情况,包括人口学变量和一些行为特征。假定这些变量的取值在观测期间内都保持不变,仔细查看和分析数据情况,试利用生存分析法完成下面的题目。
二、要求和代码
#*********************************前期数据处理***********************************
#1
#①利用R读取数据。注意:不要事先改动样本的数据内容。
data8 <- read.csv(file="F:/hxpRlanguage/homework8.csv",header=TRUE,sep=",",stringsAsFactors = F,na.strings=c("","NA"))
#②显示数据的前10条记录
data8[1:10,]
#③对变量重新命名,一律用英文字母命名变量
cnames <- c("number","searchtime","usetime","IP","source","detailsource",
"bornyear","bornmonth","gender","spouse","children","education","income",
"status","inyear","inmonth","outyear","outmonth","member")
colnames(data8)<-cnames
#④显示重命名数据集中变量的属性情况
str(data8)
#有6个需要分类的变量
#⑤对所需变量进行分类处理,包括性别、婚姻状况、孩子状况、教育程度、现居地和居住成员
#对性别进行分类,女0男1
data8$Gender[data8$gender=="B. 女" ] <- 0
data8$Gender[data8$gender=="A. 男" ] <- 1
#对婚姻状况进行分类,有配偶1没配偶0
data8$Spouse[substring(data8$spouse,0,1)=='A'] <- 0
data8$Spouse[substring(data8$spouse,0,1)=='B'] <- 1
#对孩子状况进行分类,无孩子0其他分别对应有的123
data8$Children[substring(data8$children,0,1)=='A'] <- 0
data8$Children[substring(data8$children,0,1)=='B'] <- 1
data8$Children[substring(data8$children,0,1)=='C'] <- 2
data8$Children[substring(data8$children,0,1)=='D'] <- 3
#对教育程度进行分类,小学中学高中中专=1,大专本科=2,硕士博士=3
data8$Education[data8$education=="A. 小学" | data8$education=="B. 初中" | data8$education=="C. 高中" | data8$education=="D. 中专"] <- "1"
data8$Education[data8$education=="E. 大专" | data8$education=="F. 大学本科"] <- "2"
data8$Education[data8$education=="G. 硕士" | data8$education=="H. 博士"] <- "3"
#对现居地/迁移状况进行分类,在北京=0,不在北京=1
data8$Status[data8$status=="A. 北京" ] <- 0
data8$Status[data8$status=="B. 北京以外的地区" ] <- 1
#对居住成员状况进行分类,ABCD分别对应1234
data8$Member[substring(data8$member,0,1)=='A'] <- 1
data8$Member[substring(data8$member,0,1)==