什么是数据挖掘？

最新推荐文章于 2022-02-10 17:32:23 发布

丑大狗

最新推荐文章于 2022-02-10 17:32:23 发布

阅读量970

点赞数

分类专栏： Data Mining 文章标签：数据挖掘数据仓库机器学习统计学

Data Mining 专栏收录该内容

14 篇文章 2 订阅

订阅专栏

什么是数据挖掘？

数据挖掘通过对大量的数据进行搜索来发现模式和趋势，超越了单纯分析的做法。数据挖掘使用复杂的数学算法来分割数据，并评估未来事件的概率，数据挖掘也被称为KDD（ Knowledge Discovery in Data）

数据挖掘的主要特性为：

1、自动发现模式

2、预测可能的结果

3、创建可操作的信息

4、专注于大型数据集和数据库

数据挖掘可以用来解决那些无法使用简单查询和报表技术解决的复杂问题。

自动发现

数据挖掘是通过建立模型来完成。模型使用一种算法来作用于一组数据。自动发现的概念是指数据挖掘模型的执行。

数据挖掘模型可以用来挖掘那些建立在这些模型之上的数据，但是大多数模型会泛华出新的数据。应用模型到新的数据上被称为scoring。

预测

许多形式的数据挖掘都是预测。例如，一个模型可能基于一个人的教育程度和其他一些人口因素来预测这个人的收入。预测准确的概率被称为置信度。

预测性的数据挖掘在某种形式上产生了规则，这意味着一个给定的结果。例如，规则可能会指定一个拥有学士学位而且生活在特定社区的人会拥有着高于地区平均水平的工资。这种规则用来维持着某些关系。

一些其他形式的数据挖掘用自然分组来识别。例如，一个模型可能会用来识别一部分拥有着特定收入的人群，这些人具有良好的驾驶记录而且每年租赁新车。

可操作的信息

数据挖掘技术可以从大量数据推导出可操作的信息。例如，一个城市规划者可能会使用一个基于人口统计学的模型来制定一个为低收入者提供住房计划的方案。一个汽车租赁代理可能会使用模型来识别客户群体中的高价值客户，并设计出针对这些客户的广告推送方案。

数据挖掘和统计

在数据挖掘和统计学之间有着大量的重叠。事实上，数据挖掘中用到的大多数技术可以被放到一个统计框架中。但是，数据挖掘技术又不同于传统的统计技术。

在一般情况下，传统的统计方案需要大量的用户交互来验证模型的正确性。其结果就是，统计方法可能很难实现自动化。除此之外，统计方法通常无法拓展到非常大量的数据集上。统计方法依赖于检验假设或者在大量数据中很小一部分的代表案例上寻找联系。

而数据挖掘方法使用于大量数据集，并且可以更容易的实现自动化。事实上，数据挖掘算法往往需要大量的数据才能创建可靠的高质量的挖掘模型。

数据挖掘和OLAP

联机分析处理（OLAP）可以被定义为共享的多维数据的快速分析。OLAP和数据挖掘是两种互不相同但又互补的活动。

OLAP支持数据汇总，成本分配，时间序列分析和假设分析等一系列的分析活动。但是，大多数的OLAP系统对于某些活动不具有归纳和推理能力。从具体的例子中获得一般性结论的归纳推理过程就是数据挖掘的一个主要特征。归纳推理也被称为机器学习。

OLAP提供支持多维视图的数据，包括层次化的完全支持。该数据的视图用一种自然地方式来分析企业或者组织。数据挖掘却通常不具有这样的维度和层次结构的概念。

数据挖掘和OLAP是相辅相成的。例如，数据挖掘可以被用来选择一个维度作为立方体；为一个维度创建新值，或者为一个立方体创建一个新的度量单位。OLAP又可以被用来从不同的粒度分析数据挖掘产生的结果。

数据挖掘可以帮您构建一个更有价值更有用的立方体。例如，数据挖掘的预测结果可以作为一个自定义度量尺度加入到一个立方体中。这些尺度可能会判定出每个消费者例如“可能违约”或“可能购买”的概率，OLAP系统可以在汇总和总结这些概率。

数据挖掘和数据仓库

无论数据是存储在平面文件中，电子表格里，数据库表中，或是一些其他的存储格式，这些数据都可以被用来挖掘。对数据的一个重要评判不是数据的存储格式，而是这些数据是否适用于急需被解决的问题。

适当的数据清理和数据准备对于数据挖掘来说非常重要，数据仓库技术有助于这项活动。然而，如果数据仓库中不包含可以用来解决问题的数据，那么数据仓库就是无用的了。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。