DM——数据处理基础之数据、数据统计特性

本文介绍了数据处理的基础知识,包括数据、数据集和数据类型的定义,以及数据集的三个特性:维度、稀疏性和分辨率。重点讨论了数据的统计特性,如算术均值、加权算术均值和截断均值,强调了数据中心度量和散布程度度量的重要性,并提及了如何在大数据中有效计算这些度量。
摘要由CSDN通过智能技术生成

数据处理。

数据是有质量优劣的
获得高质量数据是数据处理的目的

数据预处理的技术有

  • 数据清洗
  • 数据变换
  • 数据归约
  • 数据离散化
  • 特征(属性)选择

一、数据

1.数据、数据集、数据类型

对于数据的理解:

  • 狭义上, 数据,即为数字。
  • 广义上, 可把数据理解成记录
    (相当于在数据库中数据
  • 数据内涵,随时间的推移而发展。

类似在数据库中对数据属性的理解,以及数据集

  • 属性(也称为特征、维或字段),
    是指一个对象的某方面性质或特性。一个对象通过若干属性来刻画。
  • 数据集
    数据对象的集合(同分布、同特征) 如下图:
    在这里插入图片描述

看图说话:
一行(Row)一个数据对象(data object),或说记录(record)
一列(Colum)一个属性(attribute),或说字段(field)


数据属性是有性质的:大概分为定性和定量的属性性质。

性质 解释 举例
标称(Nominal) 属性值只提供足够的信息以区分对象。这种属性值
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

adingable

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值