【高级数理统计R语言学习】7 定序回归

一、背景
数据集展示了用户使用微博的基本情况,包括参与微博社区的层次,用户的年龄、性别、教育程度、月收入和使用微博的时间,试分析这些变量对用户参与微博社区的层次有什么样的影响?同时,对用户参与微博社区的层次作出预测。

二、要求和代码

#**************************变量关系问题*****************************************
#1
#利用R读取数据。注意:不要事先改动样本的数据内容。
#na.strings = c("NA") 的意思是文件中的缺失数据都是用NA进行表示;在读取文本文件时,默认的分割符号为空格。
data7 <- read.csv(file="F:/hxpRlanguage/homework7.csv",header=TRUE,sep=",",stringsAsFactors = F,na.strings=c("","NA"))

#2
#显示数据集的前10条记录。
data7[1:10,]

#3
#对变量重新命名,一律用英文字母命名变量。
cnames <- c("Number","Subtime","Level","Gender","Age","Education","Income","Useyear") 
colnames(data7) <- cnames

#4
#显示重命名后数据集中变量的属性情况。
str(data7)

#5
#删除有缺失值的记录。
#nrow(data7) #353条数据
#is.na(data7) #判断缺失数据
sum(is.na(data7)) #统计缺失值个数
data7 <- na.omit(data7) #删除有缺失值的记录 
nrow(data7) #351条数据

#6
#删除收入小于等于0的记录。
data7$Income <- as.numeric(data7$Income)
which(is.na(data7$Income)) #展示警告为NA的数据位置,确实是View展示的序列号
data7 <- na.omit(data7) #删掉异常值
nrow(data7) #348条数据
data7 <- data7[c(which(data7$Income>0)),]
nrow(data7) #346条数据
#View(data7)

#7
#删除年龄小于14岁或大于65岁的记录。
data7 <- data7[-c(which(data7$Age<14|data7$Age>65)),]
nrow(data7) #34
  • 4
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值