大数据，机器学习，数据挖掘，这三者有什么区别和关系？

程序猿-饭饭

已于 2022-12-08 16:32:04 修改

阅读量1k

点赞数

文章标签：大数据数据挖掘深度学习人工智能

于 2022-12-08 16:23:25 首次发布

本文链接：https://blog.csdn.net/m0_74693860/article/details/128239219

版权

大数据

大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

研究机构Gartner是这样定义的：“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。

大数据具有五大特点，称为5V。

1. 多样（Variety）

大数据的多样性是指数据的种类和来源是多样化的，数据可以是结构化的、半结构化的以及非结构化的，数据的呈现形式包括但不仅限于文本，图像，视频，HTML页面等等。

2. 大量（Volume）

大数据的大量性是指数据量的大小，采集、存储和计算的数据量都非常大。

3. 高速（Velocity）

大数据的高速性是指数据增长快速，处理快速，每一天，各行各业的数据都在呈现指数性爆炸增长。在许多场景下，数据都具有时效性，如搜索引擎要在几秒中内呈现出用户所需数据。企业或系统在面对快速增长的海量数据时，必须要高速处理，快速响应。

4. 低价值密度（Value）

大数据的低价值密度性是指在海量的数据源中，真正有价值的数据少之又少，许多数据可能是错误的，是不完整的，是无法利用的。总体而言，有价值的数据占据数据总量的密度极低，提炼数据好比浪里淘沙。

5. 真实性（Veracity）

大数据的真实性是指数据的准确度和可信赖度，代表数据的质量。

大数据技术是继物联网、云计算之后IT产业的有一次颠覆性的技术改革，它包含了几层含义：

①数据价值的利用，包括数据采集、数据储存、数据分析、数据传输、数据挖掘、数据安全等。

②对数据的“加工”能力，比如数据处理的速度。大数据的意义不在于掌握庞大的数据信息，而在于对数据进行专业化处理，通过加工实现数据的价值和增值。

③大数据技术包括大规模并行处理数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算及平台、物联网和可扩展的存储系统。

大数据的意义不仅仅在于生产和掌握庞大的数据信息，更重要的是对有价值的数据进行专业化处理。

大数据所需的技能

对机器学习概念有深入的了解

了解数据库，如 SQL、NoSQL 等。

深入了解各种编程语言，如Hadoop、Java、Python等。

了解 Apache Kafka、Scala 和云计算

熟悉 Hive 等数据库仓库。

数据挖掘

数据挖掘的定义

数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。

1. 技术上的定义

数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。

2. 商业角度的定义

数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。因此，数据挖掘可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。

数据挖掘工作流程