DataWhale数据挖掘-Task1笔记

Q:数据处理-为什么要使用One-Hot

在机器学习的模型需要的数据是数字类型的,而特征有时候不是连续值,可能是一些分类值,比如性别分为male和female。通常我们需要对这类特征进行特征
数字化。

One-Hot介绍

One—Hot编码,又称为一位有效编码,主要使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候只有一位有效

One—Hot使用

Q:有如下的三个特征属性,有一个样本[“male”,“US”,“Internet Explorer”]使用One—Hot进行编码

  1. 性别:[“male”,“female”]
  2. 地区:[“Europe”,“US”,“Asia”]
  3. 浏览器:[“Firefox”,“Chrome”,“Safari”,“Internet Explorer”]

对上述的三个特征分别使用One-Hot编码处理
male对应[1,0]
US对应[0,1,0]
Internet Explorer对应[0,0,0,1]

完整的特征数字化结果:[1,0,0,1,0,0,0,0,1]

Q:可视化

箱型图的理解

在这里插入图片描述

箱型图通常用于描述性统计,以图形方式快速查看一个或多个数据集的方法。箱型图最大的优点是不受异常值的影响,能准确的描绘出数据的离散分布情况
通过箱型图可以观察到的结果:

  • 关键数值,包括最大值、最小值、中位数和上下四分位数
  • 数据分布是否对称
  • 快速识别异常值
小提琴图的理解

在这里插入图片描述

小提琴图用于显示数据分布和概率密度,它结合来箱型图和密度图的特征,用来显示数据的分布形状。
关于95%置信区间的传送门:传送门1 传送门2

热图理解

在这里插入图片描述

热图通过色彩变化来显示数据。热图适合用来交叉检查多变量的数据,将变量置于行和列中,再将表格中的不同单元格着色。热图适用于显示多个变量之间的差异,显示是否有彼此相似的变量和检测彼此之间是否存在相关性。

Q:斯皮尔曼相关性

斯皮尔慢相性是衡量两个变量的依赖性的非参数指标。
定义:x,y为两组变数,di是x和y的等级差,n为组数

在这里插入图片描述

参考:
https://www.jianshu.com/p/6434d3e24ffb
https://datavizcatalogue.com/ZH/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值