大数据初体验

最新推荐文章于 2024-09-28 20:34:52 发布

和卢老爷55开

最新推荐文章于 2024-09-28 20:34:52 发布

阅读量396

点赞数

文章标签：大三学习

本文链接：https://blog.csdn.net/qq_42500148/article/details/88127924

版权

2019年3月4日，晴。

今天是大三下学期开学的第一天，第一次接触到大数据技术与应用这门课，同时也是第一次接触CSDN这个平台，老师发布的第一个任务便是自己注册一个CSDN的账号，写一篇属于自己的博客，谈一谈自己对于大数据的初体验，也可以说是初认识。

自此，通过老师的讲解以及自己的探究，认识到一下几点：

1. 什么是大数据？

大数据指当传统的数据挖掘和处理技术对某些数据无法进行处理时使用的过程，如数据是非结构化，时间敏感或信息量大，以至于无法通过关系数据库引擎进行处理的数据。这类型的数据，需要采用不同的处理方法和实时且具有分布式处理能力的并行硬件设备。

2.大数据的主要来源

(1).信息管理系统
(2).网络信息系统
(3).无联网系统
(4).科学实验系统

3.大数据和传统数据的比较

图片取于课本
在这里插入图片描述

4.大数据的处理流程

(1).数据汲取与集成
(2).大数据分析
(3).数据可视化

5.大数据的基本特征

大数据呈现出4V1O的基本特征：
(1).数据量大 (Volume)
(2).多样化 (Variety)
(3).数据价值密度化 (Value)
(4).速度快，时效高 (Velocity)
(5).数据是在线的 (On-Line)

6.大数据分析的四种典型工具

(1).Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

(2).Spark

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

(3).Storm

Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”（continuous computation），对数据流做连续查询，在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”，以并行的方式运行昂贵的运算。 Storm的主工程师Nathan Marz表示：

Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算，Storm用于实时处理，就好比 Hadoop 用于批处理。Storm保证每个消息都会得到处理，而且它很快——在一个小集群中，每秒可以处理数以百万计的消息。更棒的是你可以使用任意编程语言来做开发。

(4).Apache Drill

•Apache Drill是一个低延迟的分布式海量数据（涵盖结构化、半结构化以及嵌套数据）交互式查询引擎。分布式、无模式(schema-free)
•是Google Dremel的开源实现，本质是一个分布式的mpp（大规模并行处理）查询层，支持SQL及一些用于NoSQL和Hadoop数据存储系统上的语言
•更快查询海量数据，通过对PB字节（2的50次方字节）数据的快速扫描完成相关分析
•Drill 提供即插即用，在现有的 Hive 和 HBase中可以随时整合部署。
•是MR交互式查询能力不足的补充
•数据模型，嵌套
•列式存储
•结合了web搜索和并行DBMS技术