从零开始的《数据挖掘与大数据分析》课堂学习笔记-3 第二章 认识数据与数据预处理

本文是《数据挖掘与大数据分析》课程的学习笔记,主要涵盖数据的基本概念、数据类型、数据预处理的重要性及步骤。讨论了数据矩阵、时间序列、数据相似性以及预处理的原因和方法,强调了数据预处理在数据挖掘中的关键作用。
摘要由CSDN通过智能技术生成

第二章 认识数据与数据预处理

1.主要内容

一、认识数据

  • 属性类型
  • 数据的统计描述
  • 相似性度量

二、数据预处理

  • 为什么进行预处理数据?
  • 数据预处理方法

2.基本概念

  • 数据:对描述对象的抽象
  • 数据集:数据对象的集合;
  • 数据对象:实例 样本 矩阵中的一行 记录 点 向量 事件…
  • 属性:用于刻画对象的基本性质或特征

——属性也称作:变量、特性、字段、特征、维

  • 属性值:是赋予属性的数或符号

3.数据记录

3.1 数据矩阵

若数据对象具有固定个数的数值属性 那么我们把数据对象看做多维空间中的点 其中每维表示一个不同的属性。

——这种数据可以用一个m*n矩阵表示

其中m行——每行代表一个对象

n列——每列代表一个属性

3.2 文档数据

3.3 事物数据

eg:购物篮数据
在这里插入图片描述

4.有序数据——时间序列数据

比较好研究的一个小领域 发论文什么的也容易一些~

与神经网络结合起来了解

  • 时间序列数据(time series data)
    在这里插入图片描述

5

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值