学习笔记——数据挖掘过程与方法 Data Mining

本文介绍了数据挖掘的基本概念,与数据库技术的区别,详细阐述了数据挖掘的过程,包括数据收集、预处理、归约等步骤。讨论了不同类型的数据,如记录型、图表型和顺序型数据,以及数据挖掘任务,如预测和描述方法。文章还提到了数据挖掘面临的挑战,如高维数据、时间序列分析和移动环境下的挖掘。最后,提及了生物信息学、结果可视化和安全隐私问题。
摘要由CSDN通过智能技术生成

数据挖掘基本概念

  数据挖掘是一个从大规模数据集中提取隐含的、以前未知的、有潜在应用价值信息的非平凡过程。

 -Non-trivial extraction of implicit , previously unknown and potentially useful information from massive collection of data.  

与数据库技术的区别

 1.数据库技术:从大量的数据里找某个数据,或是简单的数据统计信息。  好比在草堆里找别针。
 2.数据挖掘找的不是一个已存在那里的信息。 好比是要设法搞清楚在草堆里有一根针,会造成什么样的后果。

数据挖掘过程


详细过程

  1. 了解应用领域,掌握相关先验知识以及应用的目标
  2. 收集并集成数据
  3. 对数据进行清洁和预处理
  4. 对数据进行归约和投影(发现有用特征,降维和变量约简)
  5. 确定适当的数据挖掘功能(总计、分类、回归、关联、聚类)
  6. 确定数据挖掘算法,并进行数据挖掘
  7. 对挖掘结果进行评估 
  8. 对挖掘结果进行解释:分析结果
  9. 应用发现的知识

数据挖掘的数据类型

记录型数据

矩阵数据
文本数据
事物型数据

图表型数据

基因图表
网页链接
社交网络
化学式结构数据

顺序型数据

序列化业务


基因序列数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值