913大数据综合复试内容

1.1大数据的概述以及重要的时间节点

​ 大数据是指从物联网,互联网,社交媒体等数据源的大量数据的收集,存储,分析,共享和处理,以获取有价值的信息和知识的一种新兴技术。重要的时间节点包括2001年,Google推出MapReduce;2005年,Apache推出Hadoop;2008年,Apache推出Hive;2009年,Facebook推出Presto;2011年,Google推出Spark;2014年,Apache推出Flink

1.2大数据的影响以及应用

大数据的影响主要体现在应用方面。大数据可以帮助企业更好地分析客户需求,提高服务质量,提升客户体验。此外,大数据也可以帮助企业优化运营模式,实现有效的营销策略,提高企业的经济效益。

1.3大数据的关键技术和计算模式

大数据的关键技术主要包括数据采集、数据存储、数据分析和数据可视化等;计算模式包括模式识别、机器学习、深度学习、图计算等。

1.4大数据处理架构Hadoop

大数据处理架构Hadoop是一个可扩展的分布式系统,用于存储和处理大量数据集。它由一组软件组件组成,可以部署在廉价的服务器上,从而为组织提供更大的计算能力和存储容量。 Hadoop允许组织在多台服务器上并行处理大量数据,比单台服务器更快地完成计算任务,并且可以支持大量的并发数据访问。

1.5 Hadoop的生态系统

Hadoop的生态系统是一个基于Apache Hadoop的生态系统,它涵盖了Hadoop核心技术及其附属技术,如:HDFS、YARN、MapReduce、Hive、Pig、HBase、ZooKeeper等。

2.1 分布式文件系统的HDFS的架构

HDFS架构由一个NameNode和一组DataNode组成。NameNode负责管理文件系统的元数据,而DataNode负责处理实际的数据存储和管理。当文件被写入HDFS时,它会被分割成多个块,然后每个块都被加密并存储在不同的DataNode上。当从HDFS读取文件时,DataNode会根据NameNode的指示将文件块组装成一个完整的文件,然后发送给客户端。

2.2 HDFS的存储原理

HDFS的存储原理是:将文件分割成一个个小块,然后在网络上的多台机器上进行存储,同时还能够在多台机器之间进行数据的分发和重新分配,以保证数据的安全性和可用性。

2.3分布式数据的HBase的实现原理

HBase是一种面向列的开源、分布式、NoSQL数据库,建立在Hadoop之上,它结合了Hadoop的分布式文件系统(HDFS)和Google的BigTable设计思想,实现了分布式存储和数据处理的功能。HBase数据库的实现原理有以下几个要素:

1)底层存储:HBase是建立在HDFS之上,它将数据以文件的形式存储在HDFS上,从而实现了自动分布式存储。

2)表结构:HBase采用表的数据结构,由行和列组成,可以支持千万级的行数,每列可以有不同的数据类型,可以实现多种数据类型的混合存储。

3)分区:HBase采用表分区的方式,将数据按照行键进行分区,从而实现了分布式数据处理。

4)索引:HBase通过索引和内存缓存机制,实现了快速查询。

2.4 HBase运行机制和系统架构

HBase运行机制主要是利用Hadoop分布式文件系统(HDFS)上的分布式存储,它利用HDFS文件系统的特性,将数据分割成多个块,并将其存储到HDFS上的多个节点上。HBase系统架构包括HDFS,HBase Master和HBase RegionServer。HDFS用于存储数据,HBase Master负责管理HBase的元数据,并负责分发HBase的表的创建,删除,修改等操作,还负责调度HBase RegionServer的加载,移除和故障恢复等任务;HBase RegionServer负责存储和检索数据,并处理客户端的读写操作。

2.5NoSql数据库的四大类型和三大基石

NoSql数据库的四大类型是键值存储、文档存储、列存储和图形数据库;三大基石是分布式计算、非关系型数据和高性能存储。

2.6云数据的特征和系统架构

云数据的特征主要包括可扩展性、可用性、可访问性、可管理性和可安全性。云数据的系统架构一般包含数据收集、数据清洗、数据存储、数据分析和数据可视化等模块。

3.1分布式并行编程:MAP和REDUCE

MAP和REDUCE是分布式并行编程技术中的两种基本操作,它们是一种函数式编程的方法,可以帮助程序员处理大量的数据。MAP的主要作用是分发和并行处理数据,而REDUCE的主要作用是将这些数据进行汇总,以获得最终的结果。

3.2MapReduce的具体应用

MapReduce的具体应用包括搜索引擎的索引构建、社交网络中的好友推荐、海量日志分析、金融分析、语音识别、计算机视觉、机器学习等等。

3.3YARN设计思路,体系结构和工作流程

YARN(Yet Another Resource Negotiator)是Hadoop生态系统的资源管理器,它的设计思路是建立一个可以管理Hadoop集群资源的分布式平台。它的体系结构包括Resource Manager(资源管理器)、Node Manager(节点管理器)、Application Master(应用程序管理器)和ApplicationMasterService(应用程序管理服务)。

YARN工作流程由四个步骤组成:

1.资源请求:客户端向ResourceManager发起资源请求,ResourceManager将请求添加到队列中; 2.资源分配:ResourceManager将可用资源分配给请求; 3.应用程序管理:ApplicationMaster识别资源,并负责应用程序的生命周期管理; 4.资源释放:ApplicationMaster完成作业后,将资源释放回ResourceManager,完成一次资源管理的流程。

3.4数据仓库HIVE系统架构的工作流程

HIVE系统的工作流程如下:1.用户提交查询请求;2.Hive将查询请求转换为MapReduce任务;3.Hive任务分发到Hadoop集群,运行MapReduce程序;4.在Hadoop集群上运行MapReduce任务;5.结果被返回到Hive;6.Hive将结果返回给用户。

3.5Hive高可用性(HA)基本原理

Hive高可用性(HA)基本原理是将多个Hive实例部署在不同的服务器上,并使用一个负载均衡器来调度查询请求,从而使Hive集群保持高可用性。如果某个实例发生故障,负载均衡器将查询请求重新路由到另一个可用的实例上。

3.6 Spark生态系统和运行架构

Spark生态系统是一个开放的分布式数据分析框架,它支持多种数据存储和处理系统,如Hadoop、S3和Kafka,可以满足用户的大数据存储和分析需求。而Spark运行架构基于Master/Slave架构,使用SparkContext和SparkSession作为框架的入口,使用Spark Core负责运行计算任务,并使用Spark SQL、Spark MLib和Spark Streaming进行数据处理和分析。

3.7 流计算框架和处理流程

流计算框架是一种用于处理实时流数据的技术,它能够从不同的输入源接收数据,并使用可配置的计算内容处理数据,从而提供实时结果。流处理流程是一个用于处理实时流数据的管道,它可以从输入源接收数据,并使用各种可配置的处理步骤处理数据,从而将结果发送到输出源。

3.8大数据Lambda架构

Lambda架构是一种流式数据处理架构,它被设计用于处理大量的实时数据流。它的主要特点是简单性、可伸缩性和极低的延迟。Lambda架构主要分为三个部分,即收集、处理和投放,每个部分都具有不同的功能。收集部分用于收集实时数据,处理部分用于处理收集到的数据,投放部分用于将处理后的数据发送给相应的目标系统。Lambda架构可以极大地提高数据处理的性能,并且能够有效地处理海量数据。

3.9Prege1 图计算模型和计算过程

Prege1图计算模型是一种分布式计算模型,它将神经网络的计算过程抽象成一个图,并将图中的每个节点都用一个多维向量来表示,每个节点之间的关系也用多维向量表示。在计算过程中,节点之间会产生数据信息的传递,其中节点之间的边表示节点之间的关系,节点之间的传递过程则按照节点之间的关系进行,最终实现神经网络的计算过程。

3.10 数据可视化分析(可视化工具与案例)

数据可视化是将数据以图表、图形、折线图、柱状图等可视化形式呈现出来,以便更加清晰、直观的理解数据内容。常见数据可视化分析工具有Tableau、Power BI、QlikView、Looker、Chartio等,案例包括股票可视化分析、航线可视化分析、地图可视化分析等。

4.1推荐系统(长尾理论,推荐方法,推荐系统模型)

推荐系统是一种用于向用户推荐特定内容的技术。它通常基于长尾理论,即网络流行度分布中的少量内容占据着大多数流量,而少数内容占据着少量流量。推荐系统使用不同的推荐方法来寻找最合适的内容,以满足用户的需求。推荐系统的模型可以基于内容、用户和上下文,并且可以采用基于协同过滤的方法,以便根据用户的历史行为来进行推荐。

4.2基于用户/物品的协同过滤

基于用户/物品的协同过滤是一种机器学习技术,它使用相似性推荐算法,根据用户的历史购买记录或兴趣来生成推荐。它通过分析用户之间的相似性和物品之间的关系,检索出具有最高相似性的物品,从而生成推荐。

4.3大数据在医学领域的应用(流行病预测)

大数据在生物医学领域的应用可以用来进行流行病的预测。通过分析历史数据,结合机器学习技术,可以更加精准地预测流行病的发生情况,提供有助于预防流行病的政策和措施。此外,大数据还可以用于传染病的聚类分析,以帮助诊断和治疗,更好地控制疾病的传播。

4.4大数据在智能物流,智能交通的应用

大数据在智能物流智能交通中的应用主要有以下几点:1.实现高效的货运路径规划,提高运输效率;2.通过智能分析,预测和调度货物流,提高货物流的有效性;3.通过智能调度保障道路安全,并且能够持续优化城市交通;4.通过大数据进行智能计价,实现更高效的收费;5.通过精准定位系统,实现路况实时监控,有效预测和避免交通拥堵。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值