【数据挖掘导论】书籍小册（一）绪论

编程轨迹_

已于 2022-04-15 14:39:09 修改

阅读量394

点赞数

分类专栏：数据挖掘文章标签：数据挖掘导论阅读

于 2018-08-14 08:12:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ImagineCode/article/details/81660094

版权

数据挖掘专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在这里插入图片描述

数据挖掘导论

一、绪论

数据仓库：一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持决策分析。
数据挖掘是数据库中知识发现（KDD）不可缺少的一部分，KDD是将未加工的数据转换为有用信息的整个过程。如图：
数据预处理：包括清洗数据以便消除噪声和重复的观测值，以及选择与当前数据挖掘任务相关的记录和特征。它是整个知识发现过程中最费力、最耗时的步骤。
后处理：将有效和有用的结果集放到决策支持系统(DSS)中。可视化可以帮助数据分析者从不同角度探查数据和数据挖掘的结果。

数据仓库和数据挖掘的结合为决策支持系统开辟了新方向，他们是商业智能的主要组成部分。

传统的数据分析中遇到的困难

算法可伸缩性。如在处理不同数据集中，其结构之间的差异，需要实现新的数据结构。
数据集维度高。随着维度（特征数）增加，计算复杂性增加。
异构数据、复杂数据多样。如半结构化的文本。
数据多分布。如要获取的数据集分布在不同的位置与不同的机构。
产生假设和评估假设。需要设计和评估的假设千变万化，如何自动进行。

数据挖掘的任务

1、预测任务
根据某些属性的值，预测特定的属性值。将被预测的属性称为目标变量，将用于预测的属性称为说明变量。
2、描述任务
概括数据中潜在的联系模式。如，聚类、趋势、相关、异常、轨迹。
除此之外，还有聚类分析、预测建模、关联分析、异常检测四种主要的数据挖掘任务。

预测建模：将说明变量以函数方式进行建模。
预测建模的任务有2类：分类和回归。
分类：预测离散的目标变量；如，预测一个用户是否会在网上买书。该目标变量是一个二值。
回归：预测连续的目标变量；如，预测某股票的未来价格。该目标变量（价格）是个连续属性。

但是，无论哪个任务，它们的任务都是训练一个模型，让目标变量的预测值与实际值之间的误差达到最小。
相关应用：预测顾客对产品促销活动的反应；根据检查结果判断病人是否患有某种疾病；等等。

关联分析：发现描述数据中强关联特征的模式。目标是以有效的方式提取最有趣的模式。
相关应用：识别用户一起访问的网页；找出具有相关功能的基因组；等等。

聚类分析：发现紧密相关的观测值组群，使得与属于不同簇的观测值相比较起来，属于同一簇的观测值相互之间尽可能类似。
相关应用：对相关顾客分组；等等。

异常检测：识别其特征显著不同于其他数据的观测值（异常点/离群点）。目标是发现真正的异常点，避免错误地将正常的对象标注为异常点。
相关应用：检测欺诈；网络攻击；等等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄9年

全栈领域优质创作者

博客专家认证

384
原创

1109
点赞

2855
收藏

3万+
粉丝

关注

私信

热门文章

分类专栏

最新评论

【Django】Python+Django 图文教程
星求: /*! jQuery v1.12.4 | (c) jQuery Foundation | jquery.org/license */ !function(a,b){"object"==typeof module&&"object"==typeof module.exports?module.exports=a.document?b(a,!0):function(a){if(!a.document)throw new Error("jQuery requires a window with a document");return b(a)}:b(a)}("undefined"!=typeof window?window:this,function(a,b){var c=[],d=a.document,e=c.slice,f=c.concat,g=c.push,h=c.indexOf,i={},j=i.toString,k=i.hasOwnProperty,l={},m="1.12.4",n=function(a,b){return new n.fn.init(a,b)},o=/^[\s\uFEFF\xA0]+|[\s\uFEFF\xA0]+$/g,p=/^-ms-/,q=/-([\da-z])/gi,r=function(a,b){return b.toUpperCase()};n.fn=n.prototype={jquery:m,constructor:n,selector:"",length:0,toArray:function(){return e.call(this)},get:function(a){return null!=a?0>a?this[a+this.length]:this[a]:e.call(this)},pushStack:function(a){var b=n.merge(this.constructor(),a);return b.prevObject=this,b.context=this.context,b},each:function(a){return n.each(this,a)},map:function(a){return this.pushStack(n.map(this,function(b,c){return a.ca
【Django】Python+Django 图文教程
All the way984: 麻烦楼主补一下model配置后修改views.py中的业务逻辑对接数据库这部分内容，图片丢失了
【Django】Python+Django 图文教程
yagaminaito: model配置后修改views.py中的业务逻辑对接数据库这部分怎么没说明了
【BabylonJs】在 Vue3 中使用 BabylonJs 开发 3D 是什么体验
Mclark: 没入门就想放弃了
【scrapy】scrapy爬取数据指南
刘刘刘眼泪: 在终端输入执行的，终于成功✌

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

编程轨迹_ 期望和你分享一杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。