Data Mining:(1)走进数据挖掘

  • 该博客为数据挖掘系列博客的第一部分:走进数据挖掘
  • 该博客主要介绍数据挖掘的相关概念以及参考资料。

DM Theory

缘何兴起

数据挖掘是在近些年才被人们提及的,并不断地被炒作升温,现在已经成为了炙手可热的领域。 了解一样东西,你必须首先知道它是怎么来的。有一句十分有趣的话:不要因为走得太远,而忘记了为什么出发,放在这里是恰当不过的了(虽说我们还没走(o°ω°o))。

  • 数据量大:只有数据量足够大时,它才有挖掘的价值。如果数据就是三五行的记录,那基本上一眼扫过去就知道它所要表达的信息了,也就用不上所谓的数据挖掘技术了。人类社会工业化、信息化的快速发展以及物联网的普及等都加速了数据的产生。此外,数据开放运动以及数据开源计划都极大地丰富了数据资源。举个例子来说,你看到这篇博客时你就产生了许多数据,包括兴趣偏好、上网时间、网页浏览量、点击量、停留时长等等。我们已经置身于一个数据爆炸的时代。
  • 数据存储:如果数据量足够大但没有相应的存储设备和技术时,我们也是无法加以挖掘利用的。恰如太阳每天都会释放出足够多的能量,但它并没有被充分利用。近些年来,数据库以及数据仓库技术的不断发展使得数据可以更好地被记录和保存。这也是数据挖掘兴起并不断升温的重要因素之一。
  • 信息贫乏:我们有着大量的数据,却并没有从中提取有价值的信息。世界上绝大部分的数据都未能被有效地加以利用。概括下就是DRIP:Data Rich, Information Poor。因此,我们需要数据挖掘技术来帮助我们提取其中的有价值的信息。

正式提出

  1. 1989年8月在美国底特律召开的第11届国际联合人工智能学术会议(IJCAI-89)上,Gregory Piatesky -Shapiro组织了 “数据库中的知识发现“(“KDD:Knowledge Discovery in Database")专题讨论会,该讨论会的重点是强调发现(Discovery)的方法以及发现的是知识(Knowledge)两个方面。
  2. 随后的1991、1993和1994年都举行了KDD专题讨论会,来自各个领域的研究人员和应用开发者集中讨论了数据统计、海量数据分析算法、知识表示和知识运用等问题。
  3. 随着参与科研和开发人员的不断增加,国际KDD组委会于1995年把专题讨论会发展成为国际年会,并在加拿大的蒙特利尔市召开了第一届KDD国际学术会。会议名称全称为“ACM SIGKDD ( Special Interested Group On Knowledge Discovery in Database ) International Conference on Knowledge Discovery and Data Mining ”,在这次会议上数据挖掘 ( Data Mining ) 的概念第一次由 Usama Fayyad 提出

如何定义

数据挖掘的定义并不统一,但大同小异,下面给出几个版本的定义,最后综合概括

  • Usama Fayyad :数据挖掘指的是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的有效的、新颖的、潜在有用的、并且最终可理解的模式的非平凡过程。
  • SAS软件研究所:数据挖掘是按照既定的业务目标,对大量的企业数据进行探索、揭示其中隐藏的规律性并进一步将之模型化的先进有效的方法。
  • 维基百科:数据挖掘是利用半自动化或自动化的技术,从大量的数据中提取出新颖的、有趣的模式。

可以概括为:

  • 数据挖掘是利用半自动化或自动化的技术,从大量的、不完全的、有噪声的数据中提取出隐藏在其中的有趣的、有用的模式。
  • 从商业角度来看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取用以辅助商业决策的关键知识。

走个流程

  • 关于数据挖掘流程至今没有统一的标准,不过大同小异。
  • 这里我们采用韩家炜(Jiawei Han)老师在其著作《数据挖掘:概念与技术》中所给的定义。
    1. 数据清理(消除噪声或不一致数据)
    2. 数据集成(多种数据源组合在一起)
    3. 数据选择(从数据库中检索与分析任务相关的数据)
    4. 数据变换(数据变换统一成适合挖掘的形式)
    5. 数据挖掘(使用各种算法提取数据模式)
    6. 模式评估(使用某种度量,识别真正有趣的模式)
    7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

相似概念

在这里插入图片描述

相关领域

在这里插入图片描述

应用场景

  • 公共安全(Public Security)
  • 医疗健康(Health Care)
  • 城市规划(Urban Planning)
  • 位置服务(LBS, Location-Based Services)
  • 定向营销(Targeted Marketing)
  • 情感分析(Sentiment Analysis)
  • 社会网络(Social Networks)
  • 运动管理(Sports Managing)
  • ⋯ ⋯ \cdots\cdots

DM Algorithms

基本特征

  • 有效性:满足数据挖掘的要求,获取有效的信息和知识。
  • 可伸缩性:一个算法具有良好的可伸缩性是指对小数据集和大规模数据集具有同样的效果,也就是说,如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据规模的增大近似线性地增加。

基本分类

  • 基于学习方式的分类:
    1. 监督学习(有导师学习)
      输入数据中有导师信号,以概率函数、代数函数或神经网络模型为基函数模型,采用迭代计算方法,学习结果为函数。
    2. 无监督学习(无导师学习)
      输入数据中无导师信号,采用聚类方法、学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。
    3. 强化学习(增强学习)
      以环境反馈(奖惩信号)作为输入,以统计和动态规划技术为指导的一种学习方法。
  • 基于数据形式的分类
    1. 结构化学习
      以结构化数据为输入,以数值计算或符号推演为方法。典型的结构化学习有神经网络学习、统计学习、决策树学习、规则学习。
    2. 非结构化学习
      以非结构化数据为输入。典型的非结构化学习有类比学习、案例学习、解释学习、文本挖掘、图像挖掘、Web挖掘等。
  • 基于学习目标的分类
    1. 概念学习
      即学习的目标和结果为概念。典型的有示例学习。
    2. 规则学习
      即学习的目标和结果为规则。典型的有决策树学习。
    3. 函数学习
      即学习的目标和结果为函数。典型的有神经网络学习。
    4. 类别学习
      即学习的目标和结果为类别。典型的有聚类分析。
    5. 贝叶斯网络学习
      即学习的目标和结果为贝叶斯网络。其又可分为结构学习和参数学习。

基本算法

  • 分类算法
  • 神经网络
  • 聚类分析
  • 关联分析
  • 回归分析
  • 文本分析
  • 推荐算法
  • ⋯ ⋯ \cdots\cdots

Learning Resources

推荐书籍

  • 《统计学习方法》——李航
  • 《机器学习》——周志华
  • 《数据挖掘:概念与技术》——韩家炜, Micheline Kamber等等
  • 《数据挖掘导论》——陈封能 (Pang-Ning Tan), 斯坦巴赫 (Michael Steinbach), 库玛尔 (Vipin Kumar), 范明等等

著名期刊

  • 《Data Mining and Knowledge Discovery》
  • 《KNOWLEDGE AND DATA ENGINEERING》
  • 《NEURAL NETWORKS AND LEARNING SYSTEMS》
  • 《INFORMATION SCIENCES》

顶级会议

  • International Conference on Data Mining
  • International Conference on Data Engineering
  • International Conference on Machine Learing
  • International Joint conference on Artificial Intelligence
  • Pacific-Asia Conference on Knowledge Discovery and Data Mining
  • ACM SIGKDD Conference on Knowledge Discovery and Data Mining

优秀社区

领军人物

在这里插入图片描述

工具选择

  • 谷歌搜索、谷歌学术
  • 维基百科
  • Python、R、Matlab

数据资源

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值