初识大数据——大数据技术家族

作者:翁松秀


初识大数据——大数据技术家族

随着技术的不断演进以及新兴技术的不断完善,需要根据平台的数据模型和业务逻辑对平台的技术体系进行更新。为了更好地与大数据组进行某些方面的对接,以及运用大数据技术的优势,计划将平台的主要技术体系C# ,SQLServer演进为Java ,MySQL ,SparkSQL ,Redis。存储结构方面由原来的C#演进为MySQL和HDFS,业务方面以前主要由存储过程来实现,现在演进为用程序实现,解决存储过程的分布式计算需要借助连接服务器的瓶颈。大数据技术一方面用于存储我们平台的某些特殊数据,以便和大数据组进行对接,另一方面运用大数据在实时计算,基于内存的计算等优势来处理我们的某些业务逻辑。现在的目标是用Spark来实现性能数据统计入库和MRO数据统计入库。其他的业务模块由Java程序实现。

Hadoop是一个分布式存储和计算框架,利用计算机集群对大规模数据集进行存储和计算。Hadoop框架最核心的技术是HDFS(Hadoop Distributed File System)和MapReduce,HDFS负责大规模数据的存储,而MapReduce负责大规模数据的计算。所以Hadoop最原始的技术体系是这样的:
在这里插入图片描述
现在的Hadoop框架满足了数据的存储和数据的计算,为了提高在分析处理大规模数据的效率,充分利用SQL在处理数据时的便捷和高效,所以出现了数据库仓库工具Hive,提供了SQL接口,负责将SQL语句翻译成MapReduce。所以现在的体系大概是这样的:
在这里插入图片描述
HDFS为大规模数据提供了存储方案,那我们应该如何将大规模数据采集到Hadoop的文件系统上?也就是采用什么方案来解决从大规模数据到HDFS的数据采集问题。

  • HDFS API:HDFS提供了写数据的API,可以支持用户用编程语言调用API将自己的数据写入HDFS,但是在实际开发中很少用原生的API,都是采用封装好的框架,比如说Hive中的Insert语句,Spark中的saveAsTextFile。
  • Sqoop框架:Sqoop是一个用于在HDFS文件系统和传统关系型数据库MySQL/SQLserver/Oracle进行数据同步的一个开源框架。
  • Flume框架:Flume是一个分布式的海量日志采集和传输框架。
    同理,也可以用HDFS API、Sqoop框架和Flume框架将HDFS上的数据传输我们的应用服务器中去。现在的Hadoop技术体系应该是这样的:
    在这里插入图片描述
    后来人们发现Hive后台使用MapReduce作为执行引擎处理速度确实有点慢,为了解决这个问题,出现了很多SQL On Hadoop框架,最常用的框架依次为:SparkSQL、Impala和Presto框架。这三个框架都是基于内存的大数据分析引擎。现在的Hadoop体系是这样的:
    在这里插入图片描述
    随着数据采集、分析和计算等任务越来越多,单纯地靠Hadoop的资源分配和任务调度器AppMaster远远不够,所以需要一个调度监控系统来完成对系统资源的分配、任务的调度和运行情况的监控。此时的Hadoop体系是这样的:
    在这里插入图片描述
    以上就是调研Hadoop大数据技术体系的雏形,鉴于现在Hadoop的各种框架多如牛毛,不可能在短时间内全部了解完。所以根据我们平台演进的需求,对Hadoop大数据从数据采集、数据存储、数据计算到数据应用的核心技术线对每个阶段的主要代表框架进行了调查和研究。后面会根据需要对Hadoop的实时计算,离线计算以及其他方面的优化进行学习和研究。SparkSQL能够从HDFS读取数据进行处理和计算,比如说数据统计,然后采用HDFS API或者Sqoop框架将统计结果同步到应用服务器中。如果有需要可以采用Flume框架对日志进行同步。
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Spark是一种大数据处理的框架,它可以处理大量的数据并进行分析。初学者可以通过学习Spark的基本概念和使用方法,了解Spark的工作原理和应用场景。在学习Spark的过程中,需要掌握Spark的核心组件和API,例如Spark Core、Spark SQL、Spark Streaming等。此外,还需要学习Spark的部署和调优,以及与其他大数据技术的集成。 ### 回答2: Spark是一种基于内存的分布式计算框架,是大数据处理中最流行的技术之一。Spark简单易用,能够快速地处理海量数据,尤其是在机器学习和数据挖掘领域中表现突出。本文将从初识Spark的角度入手,介绍Spark的基本概念和使用。 一、Spark的基本概念 1. RDD RDD全称为Resilient Distributed Datasets,中文意思是弹性分布式数据集,它是Spark的核心数据结构。RDD是一个不可变的分布式的对象集合,可以跨越多个节点进行并行处理。一个RDD可以分为多个分区,每个分区可以在不同的节点上存储。 2. DAG DAG即Directed Acyclic Graph(有向无环图),它是Spark中的一个概念,用来表示作业的依赖关系。Spark将一个作业拆分成一系列具有依赖关系的任务,每个任务之间的依赖形成了DAG。 3. 窄依赖和宽依赖 对于一个RDD,如果一个子RDD的每个分区只依赖于父RDD的一个分区,这种依赖就称为窄依赖。如果一个子RDD的每个分区依赖于父RDD的多个分区,这种依赖就称为宽依赖。宽依赖会影响Spark的性能,应尽量避免。 二、Spark的使用 1. 安装Spark 要使用Spark,首先需要在本地或者集群上安装Spark。下载安装包解压缩即可,然后设置环境变量,即可在命令行中运行Spark。 2. Spark Shell Spark Shell是Spark的交互式命令行界面,类似于Python的交互式控制台,可以快速测试Spark代码。在命令行中输入spark-shell即可进入。 3. Spark应用程序 除了Spark Shell,Spark还支持以应用程序的形式运行。要创建一个Spark应用程序,可以使用Scala、Java、Python等语言进行编写。使用Spark API,读取数据、处理数据、保存数据等操作都可以通过编写代码完成。 总之,Spark是一种优秀的分布式计算框架,能够在海量数据处理中发挥出强大的作用。初学者可以从掌握RDD、DAG、依赖关系等基本概念开始,逐步深入学习Spark的使用。 ### 回答3: Spark是一种快速、分布式数据处理框架,它能够在成千上万个计算节点之间分配数据和计算任务。Spark的优势在于它支持多种语言和数据源,可以在内存中快速存储和处理数据。 在初学Spark时,我们需要对Spark的架构和核心组件有一些了解。首先,Spark的核心组件是Spark Core,它是一个可以用于建立各种应用程序的计算引擎。与此同时,Spark持有丰富的库,包括Spark SQL、Spark Streaming、MLLib和GraphX等,以支持在各种数据类型(文本、图像、视频、地理定位数据等)上运行各种算法。 若想要在Spark中进行任务,有两种编程API可供选择:Spark的核心API和Spark的SQL及DataFrame API。Spark的核心API基于RDDs(弹性分布式数据集),它是不可变的分布式对象集合,Spark使用RDD来处理、缓存和共享数据。此外,Spark的SQL及DataFrame API提供了更高层次的语言,可以处理结构化和半结构化数据。 除了组件和API之外,我们还需要了解Spark的4个运行模式:本地模式、Standalone模式、YARN模式和Mesos模式。本地模式由单个JVM上单个线程(本地模式)或四个线程(local[*]模式)运行。Standalone通常用于小规模集群或开发和测试环境。在YARN或Mesos模式下,Spark将任务提交给集群管理器,并通过管理器分配和管理资源。 总体来说,初学Spark时,我们需要了解Spark的核心组件、编程API和运行模式。熟悉这些概念以及Spark的架构,可以帮助我们更好地理解Spark和构建高效且可扩展的Spark应用程序。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

翁松秀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值