【高级数理统计R语言学习】7 定序回归

最新推荐文章于 2022-12-31 11:54:15 发布

pamelaaaaa

最新推荐文章于 2022-12-31 11:54:15 发布

阅读量2.2k

点赞数 4

分类专栏： R语言文章标签： r语言

本文链接：https://blog.csdn.net/pamelaaaaa/article/details/113777066

版权

一、背景
数据集展示了用户使用微博的基本情况，包括参与微博社区的层次，用户的年龄、性别、教育程度、月收入和使用微博的时间，试分析这些变量对用户参与微博社区的层次有什么样的影响？同时，对用户参与微博社区的层次作出预测。

二、要求和代码

#**************************变量关系问题*****************************************
#1
#利用R读取数据。注意：不要事先改动样本的数据内容。
#na.strings = c("NA") 的意思是文件中的缺失数据都是用NA进行表示；在读取文本文件时，默认的分割符号为空格。
data7 <- read.csv(file="F:/hxpRlanguage/homework7.csv",header=TRUE,sep=",",stringsAsFactors = F,na.strings=c("","NA"))

#2
#显示数据集的前10条记录。
data7[1:10,]

#3
#对变量重新命名，一律用英文字母命名变量。
cnames <- c("Number","Subtime","Level","Gender","Age","Education","Income","Useyear") 
colnames(data7) <- cnames

#4
#显示重命名后数据集中变量的属性情况。
str(data7)

#5
#删除有缺失值的记录。
#nrow(data7) #353条数据
#is.na(data7) #判断缺失数据
sum(is.na(data7)) #统计缺失值个数
data7 <- na.omit(data7) #删除有缺失值的记录 
nrow(data7) #351条数据

#6
#删除收入小于等于0的记录。
data7$Income <- as.numeric(data7$Income)
which(is.na(data7$Income)) #展示警告为NA的数据位置,确实是View展示的序列号
data7 <- na.omit(data7) #删掉异常值
nrow(data7) #348条数据
data7 <- data7[c(which(data7$Income>0)),]
nrow(data7) #346条数据
#View(data7)

#7
#删除年龄小于14岁或大于65岁的记录。
data7 <- data7[-c(which(data7$Age<14|data7$Age>65)),]
nrow(data7) #34

最低0.47元/天解锁文章

pamelaaaaa

关注

4
点赞
踩
31

收藏

觉得还不错? 一键收藏
4
评论
【高级数理统计R语言学习】7 定序回归

一、背景数据集展示了用户使用微博的基本情况，包括参与微博社区的层次，用户的年龄、性别、教育程度、月收入和使用微博的时间，试分析这些变量对用户参与微博社区的层次有什么样的影响？同时，对用户参与微博社区的层次作出预测。二、要求和代码#**************************变量关系问题*****************************************#1#利用R读取数据。注意：不要事先改动样本的数据内容。#na.strings = c("NA") 的意思是文件中的缺失数据
复制链接

扫一扫

专栏目录