hadoop
文章平均质量分 89
DHRJFH
这个作者很懒,什么都没留下…
展开
-
大数据部分总结
HadoopHADOOP是apache旗下的一套开源软件平台提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理HADOOP的核心组件有HDFS(分布式文件系统)ARN(运算资源调度系统)MAPREDUCE(分布式运算编程框架)重点组件:HDFS:分布式文件系统MAPREDUCE:分布式运算程序开发框架HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具HBASE:基于HADOOP的分布式海量数据库ZOOKEEPER:分布式协调服务基础组件M原创 2021-08-27 22:06:00 · 1007 阅读 · 0 评论 -
大数据技术之Hadoop(MapReduce)
大数据技术之Hadoop(MapReduce)(作者:大数据研发部)版本:V1.4第1章MapReduce入门map 计算reduce 规约1.1 MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。1.2 MapReduce优缺点1.2.1 优点1.MapReduce原创 2021-01-04 08:41:26 · 509 阅读 · 0 评论 -
大数据技术之Hadoop阶段考试题及答案
入门1.简要描述如何安装配置apache的一个开源Hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。1)准备三台客户机(配置IP,配置主机名…)2)安装jdk,安装hadoop3)配置JAVA_HOME和HADOOP_HOME4)使每个节点上的环境变量生效(source /etc/profile)5)准备分发脚本 xsynca)**在/user/atguigu/bin下创建脚本:xsync6)明确集群的配置7)修改配置文件a)**core-site.xmlb)**hadoo原创 2021-01-04 08:39:06 · 4482 阅读 · 0 评论 -
hdfs
HDFSHadoop四大模块:common、HDFS、Yarn、MapReduce。1HDFS是什么?HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。2HDFS 从何原创 2021-01-04 08:37:29 · 482 阅读 · 0 评论 -
大数据 hadoop
1.HADOOP背景介绍1.1 什么是HADOOP1.HADOOP是apache旗下的一套开源软件平台2.HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理3.HADOOP的核心组件有A.HDFS(分布式文件系统)B.YARN(运算资源调度系统)C.MAPREDUCE(分布式运算编程框架)4.广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈1.2 HADOOP产生背景1.HADOOP最早起源于Nutch。Nutch的设计原创 2021-01-04 08:35:48 · 453 阅读 · 0 评论