(1) 首先我们手里有自己的数据在Excel表格中,有好多列,每一列有自己的名字。如下图,有4列数据,其中有缺失的数据用NA表示。将excel数据另存为CSV格式,这里CSV数据名字为Data。(这里数据列名称,数据名称,保存文件夹名称都用英文且无空格)。
(2) 打开RStudio,新建一个代码窗口。File-New File-R Script
(3) 运行代码查看R语言工作路径,并将CSV数据复制到这个工作路径下。
getwd()
(4) 读取CSV数据,并用df作为数据的名字。
df<-read.csv("Data.csv", header = TRUE)
(5) 查看是否有缺失值,并统计缺失值的个数。
is.na(df)
sum(is.na(df))
(6) 将各列的缺失值NA替换为各列数据的平均值。
as.numeric(df$Name1)
df$Name1[is.na(df$Name1)]<-mean(df$Name1,na.rm=TRUE)
as.numeric(df$Name2)
df$Name2[is.na(df$Name2)]<-mean(df$Name2,na.rm=TRUE)
as.numeric(df$Name3)
df$Name3[is.na(df$Name3)]<-mean(df$Name3,na.rm=TRUE)
as.numeric(df$Name4)
df$Name4[is.na(df$Name4)]<-mean(df$Name4,na.rm=TRUE)
(7) 将缺失值替换后的数据保存为新的数据CSV文件,名字为Data2
write.table (df, file ="Data2.csv", sep =",", row.names =TRUE)
(8) 读取新的数据Data2
df<-read.csv("Data2.csv", header = TRUE)
(9) 加载ggplot2绘图包。
library(ggplot2)
(10) 绘制两个变量散点图。
plot(df$Name1, df$Name2)
(11) 绘制三个变量散点图。
ggplot(df, aes(x=Name1,y=Name2,size=Name3)) + geom_point(shape=21,color="black",fill="#336A97",stroke=0.25)
(12) 绘制四个变量散点图。
ggplot(df, aes(Name1,Name2,fill=Name3,size=Name4)) + geom_point(shape=21,colour="black",stroke=0.25,alpha=0.8)
到此可完成,数据导入,缺失值处理,散点图绘制。