浅谈数据挖掘与机器学习_数据挖掘和机器学习可以独立两门课

上述两个示例都是回归问题的典型代表,这类问题往往根据一定的历史数据对某一个指定条件下的目标预测一个实数值。

相信经过上面通俗易懂的示例,大家应该初步了解数据挖掘以及机器学习会应用到哪些问题之上(这里列举的四类问题是很常见的,当然还有例如异常检测等应用),这就解决了面对一个新问题三要素中的Why。下面解释什么是机器学习与数据挖掘(即What)以及他们的关系和异同点。

机器学习

机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能。——Tom Mitchell

上述定义是Tom Mitchell在其著作《机器学习》中给出的定义。这个定义简单明了但是却蕴含了太多东西。

通俗的来将,我们写一段程序让计算机自己进行一个学习过程,直到达到一个满意程度。那么学习的目的是什么?怎样学习?满意程度又是如何定义的呢?

通常,假设我们的目标是一个function f,我们会给计算机提供一定的训练数据让其进行学习训练,每一次的学习会训练出一个hypothesis h,当h和f随着计算机不断学习越来越接近时,就说h越来越达到满意程度。而满意程度的度量是用误差e来度量的(针对不同情况有不同的方式)。更简单的说,机器学习就是通过数据训练找一个合适的目标函数的过程。而目前,机器学习学科应用到了大量的统计学知识,我们也称其为统计机器学习。

下面给大家解释一下必须知道的几个概念。

学习方式

根据数据类型的不同,对一个问题的建模有不同的方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。在机器学习领域,有几种主要的学习方式:

1.监督学习(supervised learning)
在监督式学习下,每组训练数据有一个明确的标识或结果,如对人按地域分类中的“新疆”、“上海”、“东别”等属于地域标识。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。
这里写图片描述

上述示例中的分类问题和回归问题都属于监督学习范畴。其中常用的分类算法包括:决策树分类法(Decision Tree)参考我之前的文章),朴素贝叶斯分类算法(Native Bayesian Classifier)、基于**支持向量机(SVM)**的分类器、神经网络法(Neural Network)、**k-最近邻法(k-nearest neighbor,kNN)**等。

2.非监督式学习(unsupervised learning)
在非监督式学习中,数据并不被标识,学习模型是为了推断出数据的一些内在结构。前面四个示例中的关联问题和聚类问题属于非监督学习的范畴。关联问题中常见算法包括Apriori(该算法基于Spark的并行化算法参考我之前文章)、FP-Growth以及Eclat等,而聚类问题中最经典的算法当属k-Means
这里写图片描述

3.半监督式学习(semi-supervised learning)
在半监督式学习学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如**图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)**等。
这里写图片描述

4.强化学习(reinforcement learning)
在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)
这里写图片描述

以上算法的核心思想及实现在后续的博文中我都会一一向大家讲解。

数据挖掘

在上一节,我们初步讨论了机器学习的基础知识、学习方式、常用算法等。这一节我们继续讨论数据挖掘的相关知识。

数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

从上面的定义可以看出数据挖掘相对于机器学习而言是一个更加偏向应用的领域。实际上,数据挖掘是一门涉及面很广的交叉学科,在处理各种问题时,只要我们清楚了业务逻辑那么就可以将问题转换为挖掘问题。

数据挖掘的处理过程一般包括数据预处理(ETL、数据清洗、数据集成等),数据仓库(可以是DBMS、大型数据仓库以及分布式存储系统)与OLAP,使用各种算法(主要是机器学习的算法)进行挖掘以及最后的评估工作。

简言之,数据挖掘是一系列的处理过程,最终的目的是从数据中挖掘出你想要的或者意外收获的信息。下图展示了数据挖掘的众多应用领域。
这里写图片描述

数据挖掘与机器学习的关系

在上面我们分别介绍了机器学习与数据挖掘的基本概念,应用,相关算法等内容。接下来继续讨论两者的关系与异同。

统计学——1749年
人工智能——1940年
机器学习——1946年
数据挖掘——1980年

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以点击这里获取!

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 13
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值