Data Mining：（1）走进数据挖掘

最新推荐文章于 2023-12-28 22:02:44 发布

April_0911

最新推荐文章于 2023-12-28 22:02:44 发布

阅读量950

点赞数

文章标签：数据挖掘概念算法资源

本文链接：https://blog.csdn.net/Time_D/article/details/93378614

版权

DM Theory

数据挖掘是在近些年才被人们提及的，并不断地被炒作升温，现在已经成为了炙手可热的领域。了解一样东西，你必须首先知道它是怎么来的。有一句十分有趣的话：不要因为走得太远，而忘记了为什么出发，放在这里是恰当不过的了（虽说我们还没走(o°ω°o)）。

数据量大：只有数据量足够大时，它才有挖掘的价值。如果数据就是三五行的记录，那基本上一眼扫过去就知道它所要表达的信息了，也就用不上所谓的数据挖掘技术了。人类社会工业化、信息化的快速发展以及物联网的普及等都加速了数据的产生。此外，数据开放运动以及数据开源计划都极大地丰富了数据资源。举个例子来说，你看到这篇博客时你就产生了许多数据，包括兴趣偏好、上网时间、网页浏览量、点击量、停留时长等等。我们已经置身于一个数据爆炸的时代。
数据存储：如果数据量足够大但没有相应的存储设备和技术时，我们也是无法加以挖掘利用的。恰如太阳每天都会释放出足够多的能量，但它并没有被充分利用。近些年来，数据库以及数据仓库技术的不断发展使得数据可以更好地被记录和保存。这也是数据挖掘兴起并不断升温的重要因素之一。
信息贫乏：我们有着大量的数据，却并没有从中提取有价值的信息。世界上绝大部分的数据都未能被有效地加以利用。概括下就是DRIP:Data Rich, Information Poor。因此，我们需要数据挖掘技术来帮助我们提取其中的有价值的信息。

1989年8月在美国底特律召开的第11届国际联合人工智能学术会议（IJCAI-89）上，Gregory Piatesky -Shapiro组织了 “数据库中的知识发现“（“KDD:Knowledge Discovery in Database"）专题讨论会，该讨论会的重点是强调发现（Discovery）的方法以及发现的是知识（Knowledge）两个方面。
随后的1991、1993和1994年都举行了KDD专题讨论会，来自各个领域的研究人员和应用开发者集中讨论了数据统计、海量数据分析算法、知识表示和知识运用等问题。
随着参与科研和开发人员的不断增加，国际KDD组委会于1995年把专题讨论会发展成为国际年会，并在加拿大的蒙特利尔市召开了第一届KDD国际学术会。会议名称全称为“ACM SIGKDD ( Special Interested Group On Knowledge Discovery in Database ) International Conference on Knowledge Discovery and Data Mining ”，在这次会议上数据挖掘 ( Data Mining ) 的概念第一次由 Usama Fayyad 提出。

数据挖掘的定义并不统一，但大同小异，下面给出几个版本的定义，最后综合概括

Usama Fayyad ：数据挖掘指的是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的有效的、新颖的、潜在有用的、并且最终可理解的模式的非平凡过程。
SAS软件研究所：数据挖掘是按照既定的业务目标，对大量的企业数据进行探索、揭示其中隐藏的规律性并进一步将之模型化的先进有效的方法。
维基百科：数据挖掘是利用半自动化或自动化的技术，从大量的数据中提取出新颖的、有趣的模式。

可以概括为：

数据挖掘是利用半自动化或自动化的技术，从大量的、不完全的、有噪声的数据中提取出隐藏在其中的有趣的、有用的模式。
从商业角度来看，数据挖掘是一种崭新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理，从中提取用以辅助商业决策的关键知识。

在这里插入图片描述

有效性：满足数据挖掘的要求，获取有效的信息和知识。
可伸缩性：一个算法具有良好的可伸缩性是指对小数据集和大规模数据集具有同样的效果，也就是说，如果给定内存和磁盘空间等可利用的系统资源，其运行时间应当随数据规模的增大近似线性地增加。

基于学习方式的分类：
1. 监督学习（有导师学习）
  输入数据中有导师信号，以概率函数、代数函数或神经网络模型为基函数模型，采用迭代计算方法，学习结果为函数。
2. 无监督学习（无导师学习）
  输入数据中无导师信号，采用聚类方法、学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。
3. 强化学习（增强学习）
  以环境反馈（奖惩信号）作为输入，以统计和动态规划技术为指导的一种学习方法。
基于数据形式的分类
1. 结构化学习
  以结构化数据为输入，以数值计算或符号推演为方法。典型的结构化学习有神经网络学习、统计学习、决策树学习、规则学习。
2. 非结构化学习
  以非结构化数据为输入。典型的非结构化学习有类比学习、案例学习、解释学习、文本挖掘、图像挖掘、Web挖掘等。
基于学习目标的分类
1. 概念学习
  即学习的目标和结果为概念。典型的有示例学习。
2. 规则学习
  即学习的目标和结果为规则。典型的有决策树学习。
3. 函数学习
  即学习的目标和结果为函数。典型的有神经网络学习。
4. 类别学习
  即学习的目标和结果为类别。典型的有聚类分析。
5. 贝叶斯网络学习
  即学习的目标和结果为贝叶斯网络。其又可分为结构学习和参数学习。