利用数据可视化技术来学习钻石鉴别_读取数据文件4diamonds.csv部分或全部内容,分析出有多少种切割质量(cut)-CSDN博客

本文链接：https://blog.csdn.net/maizi1045/article/details/106224221

本文使用 Diamonds 数据集，通过数据清洗、数值归一化和可视化技术，探究钻石的属性分布与相关性。重点关注切割质量、颜色、净度对价格的影响，并通过散点图、折线图和饼图进行展示，揭示数据中的隐藏模式。

摘要由CSDN通过智能技术生成

文章目录

数据背景

A data frame with 53940 rows and 10 variables:
这是一个10列53940行的数据集。下面是它每个属性的介绍：

price	carat	cut	color	clarity	x	y	z
价格	重量	切割质量	色彩	净度	长	宽	深

价格是以美元计价；
重量的单位是克拉；
切割质量分为：Fair, Good, Very Good, Premium, Ideal；
色彩分为：J (worst) to D (best)；
净度分为I1 (worst), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (best)；
长，宽，深的单位是mm

初（粗）看数据

加载数据到dataframe

import pandas as pd
import seaborn as sns
sns.set(style="whitegrid", palette="muted")
diamonds = pd.read_csv("/Users/sqian/Documents/GitHub/seaborn-data-master/diamonds.csv")

diamonds.describe()

在这里插入图片描述
这里可以看出一些属性的取值范围和整个数据集的数量。

diamonds.head()

在这里插入图片描述
可以看到有三个属性是非数字型的，后面可以对其进行处理。

diamonds.columns

Index([‘carat’, ‘cut’, ‘color’, ‘clarity’, ‘depth’, ‘table’, ‘price’, ‘x’, ‘y’, ‘z’],dtype=‘object’)
这个地方打印一下是为了后面选列时，复制列名用的。

diamonds.isnull().sum()

在这里插入图片描述
看一下有没有空白值，没有发现！

数据简单清理

先把非数字型的属性替换成非数字的，当然也可以不替换，我这里是为了装逼，哈哈哈！

import collections
# 统计列表元素出现次数
collections.Counter(diamonds['color'])
collections.Counter(diamonds['clarity'])
collections.Counter(diamonds['cut'])

在这里插入图片描述
这里通过查看这些列里频繁出现的值来找出需要替换的值。

diamonds['cut_no']=diamonds['cut']
diamonds['clarity_no']=diamonds['clarity']
diamonds['color_no']=diamonds['color']
# 准备好替换map
cut_rp_map={
   'Fair':1,'Good':2,'Very Good':3,'Premium':4,'Ideal':5}
co_rp_map={
   'J':1,'I':2,'H':3,'G':4,'F':5,'E':6,'D'