R语言数据探索和分析1-钻石数据集可视化及其分析

现在正值寒假,准备开始分析一些关于r语言的数据分析案例,大家一起加油!

1.简述研究背景

钻石作为一种珍贵的宝石,一直以来都备受人们追捧。然而,钻石的价格并非单纯由其重量决定,而是由多个因素共同影响。因此,对于钻石的价格形成机制及其质量特征的影响因素进行深入研究和分析,具有重要的实践意义和市场价值。

本研究基于钻石数据集进行了广泛的可视化分析,探究钻石质量特征与价格之间的关系,并考察不同特征之间的相关性。通过散点图和箱线图的综合展示,我们观察到钻石克拉重量与价格之间存在明显的正相关关系。另外,切工和净度对价格也呈现出一定程度的影响,而颜色对价格的影响相对较小。这些发现为理解钻石价格形成提供了直观的视角,为市场定价提供了一定的参考。

在探索特征之间的相关性方面,我们采用了热力图和相关性矩阵。结果显示克拉重量与价格之间存在显著正相关性,而其他特征之间的关联则更为复杂。切工与颜色呈现负相关性,净度与克拉重量之间的相关性较弱。这些发现有助于理解不同特征之间的相互作用,为评估钻石质量提供了更全面的视角。除了传统的二维图表外,我们还运用了以更生动、直观的方式展示了多维特征之间的复杂关系。这些可视化方法有助于全面理解各项特征对钻石价格的综合影响。总体而言,我们的研究通过多种可视化手段对钻石数据集进行了深入分析,呈现了钻石质量特征与价格之间的关联性,并提供了对钻石价格形成的更深入认识。这些发现为钻石行业的定价和市场预测提供了重要参考,有助于从业者更好地理解和应用数据来支持其决策。

2.数据介绍

本次数据可视化使用的是钻石数据集。包括近54000颗钻石的价格和其他属性的数据集,共53940行10个变量。每行数据代表一个不同的钻石的属性数据。

数据集和BG

3.查看数据

library(readr)
library(dplyr)
library(kknn)
library(TTR)
library(AER)
library(pROC)
library(e1071)
library(nnet)
library(rpart)
library(tidyverse)
library(memisc)

# 读取数据集
data <- read.csv('data.csv')
data
head(data)

随后可以看一下数据特征的类型

可以看到总共有10个变量,其中3个为因子类型,1个为整数类型,6个为数值类型。

4可视化部分

接下来正式进入可视化部分:

首先查看钻石的形状

#钻石的形状
#钻石总深度百分比及顶部相对于最宽点的宽度分布
data %>% 
  summarise(depth_median=median(depth),
            table_median=median(table))
par(mfrow=c(1,2))
hist(data$depth,breaks = 40)
hist(data$table,breaks = 20)

由数据统计可知,钻石总深度百分比的中位数为61.8 %;顶部相对于最宽点的宽度的中位数为57 % 。由图知,钻石总深度百分比及顶部相对于最宽点的宽度均符合正态分布。

接下来查看钻石的重量分布情况:

ggplot(data)+
  geom_histogram(aes(x=carat),binwidth=0.1)

#在钻石的重量分布上,0 − 0.5克拉的钻石最多,超过1.5 克拉以上的钻石逐渐变少。

接下来看每种切割类型、颜色、清晰度的钻石分别有多少个?

data %>%
  count(cut, sort = T)
pie(table(data$cut),labels=names(table(data$cut)))

如图所示,理想切割及优质切割的钻石占比超过一半以上。联系现实原因而言,因为钻石为奢侈品,切割水平高可以使钻石达到更好的视觉效果。所以理想切割及优质切割的钻石占比较高。

data %>%
  count(color, sort = T)
pie(table(data$color),labels=names(table(data$color)))

在钻石的颜色上, J (最差)到 D (最好)。其中 G 的数量最高,为11262 。D、I和J的数量最少,分别为6755、5407 和2802 。说明钻石颜色一般的数量最少,颜色最差和颜色最好的钻石数量都不多。

接下来查看最昂贵的10只钻石的属性信息。

先选取一下:

data %>% 
  arrange(desc(price)) %>% 
  slice_max(price, n = 10)

选择数据集中价格前十的钻石,观察其属性信息。在这些价格最为昂贵的钻石中:重量:8颗钻石的重量超过2克拉。有2颗钻石重量超过1.5克拉。切割:其切割工艺普遍在理想和优质水平。颜色:其颜色在一般及一般以上。透明度:其透明度在一般及一般以上。综上,可知这些钻石的重量大,其中2颗重量较低的钻石的颜色及切割工艺出众。

计算理想切割、颜色和清晰度最好的钻石的平均价格、价格中位数、最高价和最低价,可知平均价格为6567左右,价格中位数在4184左右,最高价为17590,最低价为893。

接下来查看钻石各属性与价格的关系

绘制钻石切割状态与价格的小提琴图,此处价格取开方值,便于观察各组之间的不同。与普遍认知不同,在此数据集中,理想切割的钻石,仍有很大一部分价格处于较低的水平。

绘制钻石颜色与价格的箱线图,此处价格取开方值,便于观察各组之间的不同。

可知,随着颜色从差到好,钻石的价格基本处于上升的趋势。

ggplot(data)+
  geom_violin(aes(x=cut,y=sqrt(price),color=cut))

绘制钻石透明度与价格的箱线图,此处价格取开方值,便于观察各组之间的不同。

可知,随着透明度从差到好,钻石的价格基本处于上升的趋势。其中透明度I1比SI2高,但是价格中位数却不如其高。说明透明度到达优质的状态后,区分钻石价格的维度更多。钻石价格受到各个状态的影响,并不是其中某一特质就能使其价格到达最高。

ggplot(data)+
  geom_boxplot(aes(x=clarity,y=sqrt(price),color=clarity))

data %>% 
  group_by(clarity, cut) %>% 
  summarize(m = mean(price)) %>% 
  ggplot(aes(x = clarity, y = m, group = cut, color = cut)) +
  geom_point() +
  geom_line(linetype = 2)

接下来查看整体价格分布情况

ggplot(data)+
  geom_histogram(aes(x=price,y=..density..),fill="#247BA0",binwidth=300)+
  geom_density(aes(x=price),size=1,alpha=.5,ajust=4,col='grey',fill='grey')

如图可知,价格在0-5000的钻石占绝大多数。随着价格越来越高,钻石的数量越来越少

接下来查看不同切割状态钻石的价格分布

ggplot(data)+
  geom_histogram(aes(x=price,fill=cut,color=cut))+
  facet_wrap(~cut)

这段代码显示了不同切割质量(cut)的钻石的价格分布。
facet_wrap(~cut) 将图表分成多个小图,每个小图对应一种切割质量。
不同颜色钻石的价格分布

不同透明度的价格分布

ggplot(data)+
  geom_histogram(aes(x=price,fill=clarity,color=clarity))+
  facet_wrap(~clarity)

接下来探究一下钻石长宽深与价格之间的关系

这三段代码分别探索了钻石的长、宽、深(x, y, z)与价格之间的关系。
geom_point 创建散点图,其中点的颜色由价格决定,展示了不同价格的钻石在这些尺寸上的分布。
每个图表都提供了钻石数据集中不同特征与价格之间关系的视觉表示,有助于理解这些特征如何影响钻石的价格。

ggplot(data)+
  geom_point(aes(x=x,y=y,col=price))

ggplot(data)+
  geom_point(aes(x=x,y=z,col=price))

ggplot(data)+
  geom_point(aes(x=y,y=z,col=price))

如图可知,外形越大(长、宽、深数值越大)的钻石,价格越高。说明钻石价格和外形大小有关联。

总结

本文对diamonds数据集进行探索性分析,并做数据可视化处理,探索钻石的价格、重量分布,及钻石价格与重量、形状、切割状态、颜色、透明度之间的关系。接下来,进行非参数检验,探究不同切割类型、颜色和透明度的钻石,价格是否具有显著性差异。由探索性分析可知,

在钻石的重量分布上,0 0.5 克拉的钻石最多,超过1.5克拉以上的钻石逐渐变少。在钻石透明度上,I1(最差) ,SI2,SI1,VS2,VS1,VS2,VS1,IF (最好)。观察其统计数据,发现钻石透明度一般的占比最高,钻石透明度最差和最好的比例都比较低。

理想切割及优质切割的钻石占比超过一半以上。联系现实原因而言,因为钻石为奢侈品,切割水平高可以使钻石达到更好的视觉效果。所以理想切割及优质切割的钻石占比较高。钻石总深度百分比及顶部相对于最宽点的宽度均符合正态分布。

  • 26
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值