【高级数理统计R语言学习】6 二值变量回归

一、背景
数据集展示了X市高学历外来人口的一些情况。试分析性别、年龄、教育程度和月收入对高学历外来人口的再迁移是否有显著影响以及有怎样的影响。

二、要求和代码

#*****************************变量关系问题*************************************
#1
#利用R读取数据集。注意:不允许改动样本的数据内容。
data6 <- read.csv(file="F:/hxpRlanguage/homework6.csv",header=TRUE,sep=",",stringsAsFactors = F)

#2
#显示数据集的前10条记录。
data6[1:10,]

#3
#对变量重新命名,一律用英文字母命名变量。
cnames <- c("Number","Gender","birthyear","birthmonth","outyear","outmonth","surveyDate","Education","Residence","Income") 
colnames(data6) <- cnames

#4
#显示重命名后数据集中变量的属性情况。
str(data6)

#5
#利用R编写程序对再迁移状况、性别和教育程度变量进行归类,不能用Excel处理数据。
#类别划分标准见Word文件“数据编码要求”。 
#①对迁移状况进行分类
data6$Residence[data6$Residence=="A. 北京"]<-"0"
data6$Residence[data6$Residence=="B. 北京以外的地区"]<-"1"
#②对性别进行分类
data6$Gender[data6$Gender=="A. 男"]<-"1"
data6$Gender[data6$Gender=="B. 女"]<-"0"
#③对教育程度进行分类
data6$Education[data6$Education=="E. 大专" | data6$Education=="F. 大学本科"]<-"0"
data6$Education[data6$Education=="G. 硕士" | data6$Education=="H. 博士"]<-"1"
#转换成因子变量类型
data6$Residence<-as.factor(data6$Residence)
data6$Gender<-as.factor(data6$Gender)
data6$Education<-as.factor(data6$Education)
data0 <- data6

#6
#利用R编写程序计算个体的年龄(以月为单位)。不能用Excel处理数据。
#引入lubridate处理时间日期的包
#install.packages("lubridate")
library(lubridate)
date <- Sys.Date() #获取系统的时间
View(date) #查看现在的日期
nowyear <- year(date) #提取年份
nowmonth <- month(date) #提取月份
Age <- (nowyear*12+nowmonth)-(data6$birthyear*12+data6$birthmonth)
data6 <- cbind(data6,Age)

#7
#删除年龄小于16岁(192个月)的记录。
a=c(which(data6[
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值