数据挖掘基本概念

数据挖掘包括分类、回归、聚类等任务,起源于统计学和机器学习。涉及数据预处理、模型评估及数据仓库设计。数据仓库关注数据分类与转换,如细节数据、综合数据和元数据。数据转换包括简单转换、清洁、集成和聚合。开发过程包括建模、构建和部署。启动数据挖掘项目需明确问题、可用数据、相关性、数据质量及操作性结果。
摘要由CSDN通过智能技术生成

数据挖掘的基本任务:分类,回归,聚类,总结概括,关联建模,变化和偏差检查。

数据挖掘重点起源于:统计学和机器学习。

系统识别:结构识别和参数识别

数据挖掘过程:

1.陈述问题,阐明假设

2.收集数据

3.预处理数据:异常数据处理,比例缩放,编码和特征选择

4.模型评估

5.解释模型,得出结论


数据仓库最重要的是两个方面:

第一:对数据仓库中存储的数据的特定类型分类。第二:对数据进行什么转换,才能使数据变成有利于决策的最终形式,

依赖时间的数据源可以如下分类:

(1)过去的细节数据

(2)当前的细节数据(新)

(3)轻度综合数据

(4)高度综合数据

(5)元数据(数据目录或向导)

为准备这些基本数据,就有一些数据转换方法,数据转换形式主要有四种:

(1)简单转换----其他复杂转换的基石,一次只操作一个字段中的数据,而不考虑相关字段的值,例如改变字段的数据类型,或把字段编码值换成解码值。

(2)清洁和净化:确保一个字段或一组相关字段采用一致的格式和用法(可用于检查某个字段的有效性,或是否在取值范围内)

(3)集成&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值