一、背景
数据集展示了用户使用微博的基本情况,包括参与微博社区的层次,用户的年龄、性别、教育程度、月收入和使用微博的时间,试分析这些变量对用户参与微博社区的层次有什么样的影响?同时,对用户参与微博社区的层次作出预测。
二、要求和代码
#**************************变量关系问题*****************************************
#1
#利用R读取数据。注意:不要事先改动样本的数据内容。
#na.strings = c("NA") 的意思是文件中的缺失数据都是用NA进行表示;在读取文本文件时,默认的分割符号为空格。
data7 <- read.csv(file="F:/hxpRlanguage/homework7.csv",header=TRUE,sep=",",stringsAsFactors = F,na.strings=c("","NA"))
#2
#显示数据集的前10条记录。
data7[1:10,]
#3
#对变量重新命名,一律用英文字母命名变量。
cnames <- c("Number","Subtime","Level","Gender","Age","Education","Income","Useyear")
colnames(data7) <- cnames
#4
#显示重命名后数据集中变量的属性情况。
str(data7)
#5
#删除有缺失值的记录。
#nrow(data7) #353条数据
#is.na(data7) #判断缺失数据
sum(is.na(data7)) #统计缺失值个数
data7 <- na.omit(data7) #删除有缺失值的记录
nrow(data7) #351条数据
#6
#删除收入小于等于0的记录。
data7$Income <- as.numeric(data7$Income)
which(is.na(data7$Income)) #展示警告为NA的数据位置,确实是View展示的序列号
data7 <- na.omit(data7) #删掉异常值
nrow(data7) #348条数据
data7 <- data7[c(which(data7$Income>0)),]
nrow(data7) #346条数据
#View(data7)
#7
#删除年龄小于14岁或大于65岁的记录。
data7 <- data7[-c(which(data7$Age<14|data7$Age>65)),]
nrow(data7) #34