数据挖掘学习笔记(0)

这篇笔记介绍了数据挖掘的基础知识,包括数据挖掘的定义,它在知识发现中的角色,以及数据预处理的重要步骤。此外,讨论了数据挖掘面临的问题,如可伸缩性、高维性和异种数据,并概述了数据挖掘的主要任务,如聚类、预测、关联分析和异常检测。
摘要由CSDN通过智能技术生成

该笔记参考《数据挖掘导论(完整版)》

什么是数据挖掘

数据挖掘是在大型数据库存储库中,自动的发现有用信息的过程。数据挖掘是一种技术,它将传统的
数据分析方法与处理大量数据的算法相结合。

数据挖掘与知识发现

数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不缺少的部分。

数据库知识发现过程

  • 数据预处理的目的是将未加工的输入数据转换成适合分析的形式。
  • 数据预处理一般处理过程包括: 1. 数据整合(融合来自多个数据源的数据) 2. 数据清洗(消除噪音和重复的观测值) 3. 数据规约(数据的规范化)
  • 一般后处理是确保将有效的数据挖掘的结果集成到决策支持的系统当中去。在该阶段中,还能使用统计度量或假设检验删除虚假数据挖掘结果。

数据挖掘需要解决的问题

  1. 可伸缩:如果数据挖掘算法要处理海量的数据,则算法必须是可伸缩的。
  2. 高维性:数据越高维,计算复杂性迅速增加。
  3. 异种数据和复杂数据:随着技术的发展,非传统数据类型越来越多(半结构文本化,web页面集,具有三维的DNA数据等等。)
  4. 数据所有权与分布:有时候需要挖掘的数据存放站点并非一个,这就需要进行分布式数据挖掘技术。
  5. 非传统的分析:传统分析是基于假设-检验模式。当前的数据分析需要自动地产生假设以及自动评估,这促使大家开发一些数据挖掘技术。

数据挖掘的任务

四种主要任务:聚类分析、预测建模、关联分析、异常检测
[外链图片转存失败(img-WEcpHsyh-1567922039246)(http://jbcdn2.b0.upaiyun.com/2014/07/38026ed22fc1a91d92b5d2ef93540f20.png)]


[外链图片转存失败(img-klLzRiEy-1567922039247)(https://cwyalpha.files.wordpress.com/2012/07/outlier.jpg?w=200&h=174)]

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值