1.数据挖掘(Data Mining)顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在数据库中的数据能“说话”,支持决策。所以,数据挖掘更偏向应用。
2.机器学习(Machine Learning)是指用某些算法指导计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。
3.深度学习(Deep Learning)的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
4.统计学(statistics)是一种利用数学理论来进行数据分析的技术。
联系:
1.数据挖掘与机器学习
机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,因为学习算法中涉及了大量的统计学理集结,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的、行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
2.数据挖掘与统计学
数据挖掘,大部分核心功能的实现都以计量和统计方法作为支撑。这些核心功能包括聚类、估计、预测、关联分组以及分类等。统计学、数据库和人工智能共同构成数据挖掘技术的三大支柱。许多成熟的统计方法构成了数据挖掘的核心内容。如回归分析、判别分析、聚类分析、探索性数据分析、列联分析等统计方法,一直在数据挖掘领域发挥着巨大的作用。
3.机器学习与深度学习