大数据随笔

最新推荐文章于 2024-09-15 01:19:00 发布

敏子酱

最新推荐文章于 2024-09-15 01:19:00 发布

阅读量90

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/qq_43492100/article/details/108766356

版权

机器学习和数据挖掘的区别：

从数据分析的角度来看，数据挖掘与机器学习有很多相似之处，但不同之处也十分明显，例如，数据挖掘并没有机器学习探索人的学习机制这一科学发现任务，数据挖掘中的数据分析是针对海量数据进行的，等等。

从某种意义上说，机器学习的科学成分更重一些，而数据挖掘的技术成分更重一些。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机是怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构，使之不断改善自身的性能。

数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘中用到了大量的机器学习界提供的数据分析技术和数据库界提供的数据管理技术。

学习能力是智能行为的一个非常重要的特征，不具有学习能力的系统很难称之为一个真正的智能系统，而机器学习则希望(计算机)系统能够利用经验来改善自身的性能，因此该领域一直是人工智能的核心研究领域之一。在计算机系统中，“经验”通常是以数据的形式存在的，因此，机器学习不仅涉及对人的认知学习过程的探索，还涉及对数据的分析处理。

实际上，机器学习已经成为计算机数据分析技术的创新源头之一。由于几乎所有的学科都要面对数据分析任务，因此机器学习已经开始影响到计算机科学的众多领域，甚至影响到计算机科学之外的很多学科。机器学习是数据挖掘中的一种重要工具。然而数据挖掘不仅仅要研究、拓展、应用一些机器学习方法，还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪声等实践问题。机器学习的涉及面也很宽，常用在数据挖掘上的方法通常只是“从数据学习”。然而机器学习不仅仅可以用在数据挖掘上，一些机器学习的子领域甚至与数据挖掘关系不大，如增强学习与自动控制等。所以笔者认为，数据挖掘是从目的而言的，机器学习是从方法而言的，两个领域有相当大的交集，但不能等同。

大数据处理系统的分类：
（1）数据查询分析系统
（2）批处理系统
（3）流式计算系统
（4）迭代计算系统
（5）图式计算系统

举例说明各类处理系统的特点：
数据查询分析系统：
① HBace：是分布式数据库，主要用来存储非结构化和半结构化的松散数据。
② Hlive：是一个基于Hadoop的数据仓库工具，可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理。

批处理系统
① MarkReduce：是分布式并行编程模型，用于大规模数据集的并行运算，它将复杂的、运行于大规模集群上的并行计算过程高度抽象为两个函数----Map和Reduce。
② Hadoop：核心是分布式文件系统HDFS和MapReduce。借助Hadoop，可以编写分布式并行程序，将其运行在廉价的计算机集群上，完成海量的数据的存储与计算。
③ Spark：是个可应用于大规模数据处理的快速、通用引擎。它提供了内存计算，减少了迭代计算时的I/O开销，并提供了基于Scala的交互式的编程体验。

流式计算系统：storm

迭代计算系统:Hadoop、Spark

图式计算系统：Graphx

大数据处理的基本流程：
（1）源数据：
① 结构化数据（MySQl）
② 半结构化数据（HTML）
③ 非结构化数据（文档数据）
（2）数据清洗
① 抽取
② 集成
（3）数据分析
① 机器学习
② 数据挖掘
③ 数据统计
（4）数据解释
① 可视化
② 人机交互
（5）用户