R语言实战:预测钻石的价格

本文通过R语言对钻石价格进行建模分析,探讨克拉、切割、颜色、纯度等因素与价格的关系。发现克拉、切割、颜色和纯度均对价格有正相关影响,并建立预测模型,预测不同参数下的钻石价格。
摘要由CSDN通过智能技术生成

作者:刘小芬R语言中文社区专栏作者。知乎专栏:https://www.zhihu.com/people/liu-xiao-fen-10/columns


数据来源:R中的ggplot2包的自带数据diamond

数据分析目的:建模,预测钻石的价格。

数据分析思路:

1.单变量跟价格的关系:分别探讨克拉、颜色、纯度、深度、体积、切割跟价格的关系。

2.多变量跟价格的关系:分别探讨多个维度跟价格的关系。

数据分析过程:

一、导入数据

library(ggplot2)
data(diamonds)
View(diamonds)
names(diamonds)

理解数据:

carat:克拉

cut:切割(Levels: Fair < Good < Very Good < Premium < Ideal)

color:颜色(Levels: D < E < F < G < H < I < J)

clarity:纯度(Levels: I1 < SI2 < SI1 < VS2 < VS1 < VVS2 < VVS1 < IF)

depth:深度

table:台面

price:价格

二、数据分析

加载包:

library(dplyr)
library(ggplot2)
library(gridExtra)
library(RColorBrewer)
library(GGally)
library(scales)
library(memisc)
library(lattice)
library(MASS)
library(car)
library(reshape2)
library(RCurl)
library(bitops)

因为数据分析的目的建模预测价格,所以首先画讨价格直方图,探讨价格的分布规律:

###价格直方图
qplot(x=price,data = diamonds,fill=I("skyblue"))+
  scale_x_continuous(breaks = seq(0,20000,1000))+
  ggtitle("The Price Of Diamonds")

大部分价格是分布在2000元以下,对这部分画图:

qplot(x=price,data =subset(diamonds,price < 2000),col=I("skyblue"),fill=I("pink"),binwidth=20)+
  scale_x_continuous(limits = c(0,2000),breaks = seq(0,2000,100))+
  ggtitle("The Low Price Of Diamonds")
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值