作者:刘小芬,R语言中文社区专栏作者。知乎专栏:https://www.zhihu.com/people/liu-xiao-fen-10/columns
数据来源:R中的ggplot2包的自带数据diamond
数据分析目的:建模,预测钻石的价格。
数据分析思路:
1.单变量跟价格的关系:分别探讨克拉、颜色、纯度、深度、体积、切割跟价格的关系。
2.多变量跟价格的关系:分别探讨多个维度跟价格的关系。
数据分析过程:
一、导入数据
library(ggplot2)
data(diamonds)
View(diamonds)
names(diamonds)
理解数据:
carat:克拉
cut:切割(Levels: Fair < Good < Very Good < Premium < Ideal)
color:颜色(Levels: D < E < F < G < H < I < J)
clarity:纯度(Levels: I1 < SI2 < SI1 < VS2 < VS1 < VVS2 < VVS1 < IF)
depth:深度
table:台面
price:价格
二、数据分析
加载包:
library(dplyr)
library(ggplot2)
library(gridExtra)
library(RColorBrewer)
library(GGally)
library(scales)
library(memisc)
library(lattice)
library(MASS)
library(car)
library(reshape2)
library(RCurl)
library(bitops)
因为数据分析的目的建模预测价格,所以首先画讨价格直方图,探讨价格的分布规律:
###价格直方图
qplot(x=price,data = diamonds,fill=I("skyblue"))+
scale_x_continuous(breaks = seq(0,20000,1000))+
ggtitle("The Price Of Diamonds")
大部分价格是分布在2000元以下,对这部分画图:
qplot(x=price,data =subset(diamonds,price < 2000),col=I("skyblue"),fill=I("pink"),binwidth=20)+
scale_x_continuous(limits = c(0,2000),breaks = seq(0,2000,100))+
ggtitle("The Low Price Of Diamonds")