大数据技术基础
文章平均质量分 84
Lora青蛙
主不在乎
展开
-
大数据技术基础习题1
名称节点包含的两大核心数据结构是什么?分别有什么作用?名称节点是如何知道具体一个数据块存储在哪个数据节点上的?两大核心数据结构:FsImage和EditLog作用:1.FsImage维护文件系统树以及文件树中所有的文件和文件夹的元数据2. EditLog记录所有针对文件的创建、删除、重命名等动态操作由名称节点把这些映射信息保留在内存中,当数据节点加入HDFS集群时,数据节点会把自己所包含的块列表告知给名称节点,此后会定期执行这种告知操作,以确保名称节点的块映射是最新的。HDFD的主从结构集群中Na原创 2021-05-11 19:57:25 · 1270 阅读 · 1 评论 -
大数据技术基础笔记7 MapReduce
文章目录7.1 概述7.1.1 分布式并行编程7.1.2 MapReduce模型简介7.1.3 Map和Reduce函数7.2 MapReduce体系结构7.3 MapReduce工作流程7.1 概述7.1.1 分布式并行编程“摩尔定律”:CPU性能大约每隔18个月翻一番从2005年开始摩尔定律逐渐失效 ,需要处理的数据量快速增加,人们开始借助于分布式并行编程来提高程序性能。分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计算能力谷歌公司最先提出了分布式并行编程原创 2021-05-11 16:53:35 · 378 阅读 · 2 评论 -
大数据技术基础笔记6 云数据库
6.1 云数据库概述云数据库是部署和虚拟化在云计算环境中的数据库。它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易。云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。云数据库具有以下特性:(1)动态可扩展(2)高可用性(3)较低的使用代价(4)易用性(5)高性能(6)免维护(7)安全不同企业类型对于存储的需求也千差万别,而云数据库可以很好地满足不同企业的个性化存储需求:云数据库可以满足大企业的海量数据存储需求云数据原创 2021-05-11 16:24:53 · 595 阅读 · 1 评论 -
大数据技术基础笔记5 NoSQL数据库
本章介绍了NoSQL数据库的相关知识NoSQL数据库较好地满足了大数据时代的各种非结构化数据的存储需求,开始得到越来越广泛的应用。但是,需要指出的是,传统的关系数据库和NoSQL数据库各有所长,彼此都有各自的市场空间,不存在一方完全取代另一方的问题,在很长的一段时期内,二者都会共同存在,满足不同应用的差异化需求NoSQL数据库主要包括键值数据库、列族数据库、文档型数据库和图形数据库等四种类型,不同产品都有各自的应用场合。CAP、BASE和最终一致性是NoSQL数据库的三大理论基石,是理解NoSQL数原创 2021-05-11 11:38:11 · 789 阅读 · 3 评论 -
大数据技术基础笔记4 分布式数据库HBase
文章目录4.1 概述4.2 HBase访问接口4.3 HBase数据模型4.4 HBase的实现原理4.5 HBase运行机制4.6 HBase编程实践4.7 小结4.1 概述HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表为什么需要HBase?Hadoop可以很好地解决大规模数据的离原创 2021-05-10 16:51:53 · 2132 阅读 · 9 评论 -
大数据技术基础笔记3 分布式文件系统HDFS
文章目录3.1 分布式文件系统3.2 HDFS简介3.3 HDFS相关概念3.4 HDFS体系结构• 3.1 分布式文件系统• 3.2 HDFS简介• 3.3 HDFS相关概念• 3.4 HDFS体系结构• 3.5 HDFS存储原理• 3.6 HDFS数据读写过程• 3.7 HDFS编程实践3.1 分布式文件系统计算机集群结构• 分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。• 与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布原创 2021-05-10 16:19:31 · 1750 阅读 · 2 评论 -
大数据技术基础笔记2 大数据处理架构Hadoop
文章目录2.1 概述2.1 概述• Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构• Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中• Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce• Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力• 几乎所有主流厂商都围绕Hadoop提供原创 2021-04-29 16:19:28 · 463 阅读 · 0 评论 -
大数据技术基础笔记1 大数据概述
文章目录1.1 大数据时代1.2 大数据概念1.3 大数据的影响1.4 大数据的应用1.5 大数据关键技术1.6 大数据计算模式1.7 大数据产业1.8 大数据与云计算、物联网的关系1.1 大数据时代根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革根据Gartner发布的《2019年全球首席信息官议程调查报告》,企业IT发展分成三个阶段:IT工匠时代、IT工业化时代、IT数字化时代,当前已进入数字化时代。1.2 大数据概念• 数据量大根据IDC作出的估测,数据原创 2021-04-29 11:35:57 · 2896 阅读 · 0 评论