利用数据可视化技术来学习钻石鉴别

本文使用 Diamonds 数据集,通过数据清洗、数值归一化和可视化技术,探究钻石的属性分布与相关性。重点关注切割质量、颜色、净度对价格的影响,并通过散点图、折线图和饼图进行展示,揭示数据中的隐藏模式。
摘要由CSDN通过智能技术生成

数据背景

A data frame with 53940 rows and 10 variables:
这是一个10列53940行的数据集。下面是它每个属性的介绍:

price carat cut color clarity x y z
价格 重量 切割质量 色彩 净度

价格是以美元计价;
重量的单位是克拉;
切割质量分为:Fair, Good, Very Good, Premium, Ideal;
色彩分为:J (worst) to D (best);
净度分为I1 (worst), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (best);
长,宽,深的单位是mm

初(粗)看数据

加载数据到dataframe

import pandas as pd
import seaborn as sns
sns.set(style="whitegrid", palette="muted")
diamonds = pd.read_csv("/Users/sqian/Documents/GitHub/seaborn-data-master/diamonds.csv")
diamonds.describe()

在这里插入图片描述
这里可以看出一些属性的取值范围和整个数据集的数量。

diamonds.head()

在这里插入图片描述
可以看到有三个属性是非数字型的,后面可以对其进行处理。

diamonds.columns

Index([‘carat’, ‘cut’, ‘color’, ‘clarity’, ‘depth’, ‘table’, ‘price’, ‘x’, ‘y’, ‘z’],dtype=‘object’)
这个地方打印一下是为了后面选列时,复制列名用的。

diamonds.isnull().sum()

在这里插入图片描述
看一下有没有空白值,没有发现!

数据简单清理

  1. 先把非数字型的属性替换成非数字的,当然也可以不替换,我这里是为了装逼,哈哈哈!
import collections
# 统计列表元素出现次数
collections.Counter(diamonds['color'])
collections.Counter(diamonds['clarity'])
collections.Counter(diamonds['cut'])

在这里插入图片描述
这里通过查看这些列里频繁出现的值来找出需要替换的值。

diamonds['cut_no']=diamonds['cut']
diamonds['clarity_no']=diamonds['clarity']
diamonds['color_no']=diamonds['color']
# 准备好替换map
cut_rp_map={
   'Fair':1,'Good':2,'Very Good':3,'Premium':4,'Ideal':5}
co_rp_map={
   'J':1,'I':2,'H':3,'G':4,'F':5,'E':6,'D'
  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值