项目介绍
此报告使用从Kaggle下载的Diamonds数据集,下载地址: https://www.kaggle.com/shivam2503/diamonds
该项目的主要任务是发现钻石属性之间的相关性,寻找和钻石价格相关的特征。
数据集
一开始,探索数据维度。它由53940个观测值和11个变量组成。 Diamonds数据集中有“3个分类”变量:
cut (比例、对称性和抛光度)是衡量钻石刻面如何与光相互作用的指标;
color 有很多种(可以是粉色、蓝色甚至黄色)。白色钻石的体色越少,其反射的真实色彩就越多,因此其价值就越大;
clarity 等级评估夹杂物和瑕疵的数量、大小、起伏和位置;
和 7 continuous个连续性
carat 克拉是钻石交易商最初的重量/度量单位。1克拉~0.2克。 随着钻石克拉大小的增加,钻石的价格会以增加的速度增长;
depth 深度是切口的一个方面,它影响了多少光线被反射;
table 桌子是石头顶部的平坦表面,类似于实际的桌面。作为钻石最大的一面,桌子反射和折射光线,使钻石更加明亮;
x 钻石的长度,单位为毫米,从0到10.74;
y 钻石的宽度(mm),从0