数据挖掘——数据

1. 数据属性

数据对象是通过属性来描述的。

(1)名词型属性:各个属性值之间没有距离关系。

a. 二元型属性:只有两个取值的名词型属性;两个取值同等重要的是对称型(如男和女),不同等重要的为不对称(如阳性和阴性)。

b. 顺序型属性:取值有排序效果,如小中大。

(2)数值型属性:数值型属性一般都要归一化,以减少量纲带来的影响

(3)离散性属性 VS 连续型属性

2. 数据基本统计

均值、中位数(也叫二分位数)、众数、方差、异常值、分位数

3. 数据统计图
(1)箱形图 Boxplot (pyplot怎么画) (不同的数据分布,画出来的Boxplot可能一样)

      Minimum Q1 Median Q3 Maximum (最小值、第一四分位数、中位数、第三四分位数、最大值)

(2)直方图 Histogram:简单直观、能够较好展示数据的分布,展示的信息比箱型图多。

(3)Q-Q图 Quantile:  (加强版是Quantile-Quantile图)

(4)散点图 Scatter

4. 数据可视化

(1)基于像素的可视化技术:每个像素代表一个值,如机器翻译中attention的可视化

(2)几何投影可视化技术:平行坐标、直接可视化等,如人体结构数据可视化

(3)图形可视化,如人脸表情

(4)分层可视化

(5)复杂数据可视化:非数值型数据的可视化,如文本(词云)、社交网络等

 

5. 数据相似性和差异性度量

(1) 相似性

(2)差异性(距离)

 

接近:指相似性或者差异性

名词型属性:直接算相同的个数比,d(i, j) = (p-m) / p; m代表形同的个数,p代表总个数

Jaccard系数

数值型属性:先归一化,再计算相似度;欧式距离,闵可夫斯基距离,曼哈顿距离,上确界的距离,余弦相似度,

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值