Hadoop
文章平均质量分 86
Hadoop生态圈
坏蛋呆呆
技术服务业务,技术服务生活,技术服务社会,技术服务世界!!!
展开
-
Hadoop入门试题
1、Mapreduce擅长那个领域的计算?A、离线批处理B、DAG计算C、流式计算D、实时计算2、关于Mapduce原理,下面说法错误的是?A、分为Map和Reduce两个阶段B、Map阶段由一系列Map任务组成C、Reduce阶段由一系列Reduce任务组成D、Map阶段和Reduce阶段没有任何依赖关系3、HDFS默认副本数是?A、1B、2C、3D、44、哪个不属于HDFS架构组成部分?A、NameNodeB、Secondary Nam原创 2020-09-20 17:24:59 · 3218 阅读 · 2 评论 -
大数据面试笔试题
1、HBase适合用的场景?答:成熟的数据分析主题,查询模式已经确立,并且不会轻易改变。传统给的关系型数据库已经无法承受负荷,高速插入,大量读取。适合海量的,但同时也使简单的查询条件(例如:key-value)。注:半结构化或非结构化数据:对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用HBase。当业务发展需要增加存储比如一个用户的email、phone、addre...原创 2020-03-08 23:29:39 · 272 阅读 · 0 评论 -
Apache-Hadoop2.7.3分布式集群搭建
一、环境准备1、准备五台linux机器或者VMware做几个CentOs虚拟机,如下2、给各机器分别设置hostname,集群配置时直接使用hostname,避免IP变动时修改各组件的核心配置。查看centos系统hostname,执行以下命令:hostname修改centos系统hostname,root权限下执行以下命令:vi /etc/sysconfig/network;修改HOSTNAME...原创 2018-06-24 22:42:59 · 2128 阅读 · 0 评论 -
Apache-kafka2.11集群搭建
一、环境准备1、本次使用机器为Apache-Hadoop2.7.3分布式集群搭建中的WAMaster、WASlave1、WASlave2节点;也可自行再准备三台linux主机或虚拟机(需要java环境)。2、这里不使用kafka自带的Zookeeper,所以Zookeeper集群搭建请参考Zookeeper集群搭建二、安装包准备1、通过Xshell分别连接WAMaster...原创 2018-07-01 22:43:34 · 3298 阅读 · 0 评论 -
Apache-Zookeeper3.4.9集群搭建
一、环境准备1、本次使用机器为Apache-Hadoop2.7.3分布式集群搭建中的WASlave2、WASlave3、WASlave4节点;也可自行再准备三台linux主机或虚拟机(需要java环境)。二、Apache-Zookeeper安装包准备1、通过Xshell分别连接WASlave2、WASlave3、WASlave4后,通过lrzsz将Zookeeper(下载地址:Zook...原创 2018-07-01 13:47:41 · 1883 阅读 · 0 评论 -
Apache-hive2.1.1安装部署
一、环境准备1、本次物理节点使用Hadoop分布式集群中的WAMaster节点;也可自行准备一台linux主机或虚拟机(需要java环境);需要Hadoop集群和mysql数据库。2、Hadoop集群搭建参考:点击打开链接3、准备mysql数据库作为hive的metastore库centos安装mysql服务端:sudo yum install mysql-servercentos安装mysql...原创 2018-07-15 22:56:56 · 2493 阅读 · 0 评论 -
Apache-Hbase1.2.4集群部署搭建
一、环境装备1、机器准备:本次使用机器为Apache-Hadoop分布式集群搭建中的WAMaster、WASlave1、WASlave2节点;2、Hadoop环境:可参考Apache-Hadoop分布式集群搭建准备Hadoop环境。3、Zookeeper环境:可参考Apache-Zookeeper集群搭建准备Zookeeper环境。二、安装包准备使用Xshell连接WAMast...原创 2018-07-23 23:59:57 · 1851 阅读 · 0 评论 -
Hadoop学习笔记一:HDFS
一、HDFS是什么?HDFS是Hadoop Distributed File System的简称;源自于Google的GFS论文,是其开源实现。 基于流数据模式访问和处理超大文件的需求而开发的; 适合应用于大规模数据集上;二、HDFS优缺点优点:处理超大文件,能用来存储管理Pb级数据。 流式数据访问数据。 运行于廉价的集群上缺点不适合处理低延迟数据访问 无法高效存储大量的...原创 2018-08-05 17:16:58 · 1459 阅读 · 0 评论