大数据
灬十二
哪有什么岁月静好,不过是有人替你负重前行,生活从来都不容易!
展开
-
Kafka & Flume & Sqoop
Q1、 kafka基本原理,kafka如何保证接收消息的顺序性Kafka基本原理:Kafka是apache开源一个分布式的、可分区的、可复制的消息系统。将消息的发布称producer,将消息的订阅表述为 consumer,将中间的存储阵列称作 brokerProducer (push) —> Broker <----(pull) ConsumerKafka集群中...翻译 2019-04-03 22:51:55 · 766 阅读 · 0 评论 -
hbase 集群搭建
1、 安装 zookeeper 集群,此处略2、 找到官网下载 hbase 安装包 hbase-1.2.6-bin.tar.gz,这里给大家提供一个下载地址: http://mirrors.hust.edu.cn/apache/hbase/ 对应版本的官方文档:http://hbase.apache.org/1.2/book.html3、 上传安装包到服务器,并解压到对应的安装目录[hado...翻译 2019-03-31 18:15:34 · 118 阅读 · 0 评论 -
Hive 环境搭建
内嵌 Derby 版本1、 上传安装包 apache-hive-2.3.2-bin.tar.gz2、 解压安装包 tar -zxvf apache-hive-2.3.2-bin.tar.gz -C /home/hadoop/apps/3、 进入到 bin 目录,运行 hive 脚本:[hadoop@hadoop02 bin]$ ./hive注意:1、 这时候一般会报错:Termi...翻译 2019-03-31 18:28:45 · 117 阅读 · 0 评论 -
Flume 体系结构/核心组件
概述Flume 的数据流由事件(Event)贯穿始终。事件是 Flume 的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些 Event 由 Agent 外部的 Source 生成,当 Source 捕获事件后会进行特定的格式化,然后 Source 会把事件推入(单个或多个)Channel 中。你可以把 Channel 看作是一个缓冲区,它将保存事件直到 Sink 处理完该事件...翻译 2019-03-31 18:41:21 · 813 阅读 · 0 评论 -
Flume 实战案例
采集目录到 HDFS采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到 HDFS 中去根据需求,首先定义以下 3 大要素数据源组件,即 source ——监控文件目录:spooldir spooldir 特性:1、 监视一个目录,只要目录中出现新文件,就会采集文件中的内容2、 采集完成的文件,会被 agent 自动添加一个后缀:.COMPLETE...翻译 2019-03-31 18:47:32 · 245 阅读 · 0 评论 -
MapReduce 调优
1、MapReduce 参数调优1.1、资源相关参数以下参数是在用户自己的 mr 应用程序中配置就可以生效:1、 mapreduce.map.memory.mb: 一个 Map Task 可使用的资源上限(单位:MB),默认为 1024。如果 Map Task 实际使用的资源量超过该值,则会被强制杀死。2、 mapreduce.reduce.memory.mb: 一个 Reduce Tas...翻译 2019-03-31 19:00:46 · 141 阅读 · 0 评论 -
shuffle流程图
原创 2019-03-31 19:03:00 · 385 阅读 · 0 评论 -
YARN笔记
1、YARN1.1、YARN 概述YARN(Yet Another Resource Negotiator)YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程框架的不足...翻译 2019-03-31 19:19:34 · 129 阅读 · 0 评论 -
HBase 性能优化笔记
1 hbase.hregion.max.filesize应该设置多少合适2 autoflush=false的影响3 从性能的角度谈table中family和qualifier的设置4 hbase.regionserver.handler.count详解1 hbase.hregion.max.filesize应该设置多少合适默认值:256M说明:Maximum HStoreFile si...翻译 2019-04-02 20:33:35 · 67 阅读 · 0 评论 -
HBase性能优化
配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优:这个ti...翻译 2019-04-02 20:35:06 · 83 阅读 · 0 评论 -
MapReduce编程套路
翻译 2019-04-02 20:38:41 · 145 阅读 · 0 评论 -
ZooKeeper 集群搭建
ZooKeeper 软件安装须知鉴于 ZooKeeper 本身的特点,服务器集群的节点数推荐设置为奇数台。我这里我规划为三台,为别为 hadoop01,hadoop02,hadoop031、上网找 ZooKeeper 的软件安装,并下载下来下载地址:http://mirrors.hust.edu.cn/apache/ZooKeeper/ 版本号:ZooKeeper-3.4.7.tar.gz...翻译 2019-03-31 17:50:36 · 84 阅读 · 0 评论 -
Hadoop HA 集群搭建
1、Hadoop HA 原理概述为什么会有 hadoop HA 机制呢?HA:High Available,高可用在Hadoop 2.0之前,在HDFS 集群中NameNode 存在单点故障 (SPOF:A Single Point of Failure)。对于只有一个 NameNode 的集群,如果 NameNode 机器出现故障(比如宕机或是软件、硬件升级),那么整个集群将无法使用,直到 ...翻译 2019-03-31 17:43:01 · 169 阅读 · 0 评论 -
HDFS 核心设计
HADOOP 心跳机制(heartbeat)1、 Hadoop 是 Master/Slave 结构,Master 中有 NameNode 和 ResourceManager,Slave 中有Datanode 和 NodeManager2、 Master 启动的时候会启动一个 IPC(Inter-Process Comunication,进程间通信)server 服务,等待 slave 的链...翻译 2019-03-31 17:01:51 · 130 阅读 · 0 评论 -
MapReduce&YARN
Q1、 mapreduce流程?Map阶段:1:读取输入文件的内容,并解析成键值对(<key, value>)的形式,输入文件中的每一行被解析成一个<key, value>对,每个<key, value>对调用一次map()函数。2:用户写map()函数,对输入的<key,value>对进行处理,并输出新的<key,value>对。...翻译 2019-04-03 22:53:25 · 139 阅读 · 0 评论 -
HDFS
Q1、 Hdfs的写数据流程?1、使用HDFS提供的客户端Client,向远程的Namenode发起RPC请求2、Namenode会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会为文件创建一个记录,否则会让客户端抛出异常;3、当客户端开始写入文件的时候,客户端会将文件切分成多个packets,并在内部以数据队列“data queue(数据队列)”的形式管理这些packets...翻译 2019-04-03 22:54:22 · 229 阅读 · 0 评论 -
HBase
Q1、 HBase中rowkey的设计原则?建议使用String如果不是特殊要求,RowKey最好都是String。 方便线上使用Shell查数据、排查错误 更容易让数据均匀分布 不必考虑存储成本 RowKey的长度尽量短。如果RowKey太长话,第一是,存储开销会增加,影响存储效率;第二是,内存中Rowkey字段过长,内存的利用率会降低,这会降低索引命中率。一般的做法是: 时间使用Long来...翻译 2019-04-03 22:54:59 · 207 阅读 · 0 评论 -
Hive
Q1、 udf,udaf,udtf的区别?Hive中有三种UDF:1、用户定义函数(user-defined function)UDF;2、用户定义聚集函数(user-defined aggregate function,UDAF);3、用户定义表生成函数(user-defined table-generating function,UDTF)。UDF操作作用于单个数据行,并且产生一个数...翻译 2019-04-03 22:56:08 · 213 阅读 · 0 评论 -
Spark
Q1、 Spark job的运行架构?1、构建Spark Application 的运行环境(初始化SparkContext), SparkContext向资源管理器(可以是Standalone、Mesos或YARN)注册并申请运行Executor资源2、资源管理器分配 Executor 资源并启动 StandaloneExecutorBackend,Executor 运行情况将随着心跳发送到...翻译 2019-04-03 23:00:37 · 396 阅读 · 0 评论 -
Kafka简介
Kafka 是什么1、Kafka 概述在流式计算中,Kafka 一般用来缓存数据,Storm 通过消费 Kafka 的数据进行计算。经典架构:Flume + Kafka + Storm/SparkStreaming + RedisApache Kafka 最初是是由 LinkedIn 开发的一个基于发布订阅的分布式的消息系统,由Scala/Java 编写,并于 2011 年初开源。201...翻译 2019-04-04 20:19:00 · 297 阅读 · 0 评论 -
kafka 集群部署
1、Kafka 初体验单机 Kafka 试玩官网网址:http://kafka.apache.org/quickstart中文官网:http://kafka.apachecn.org/quickstart.html2、集群部署的基本流程总结1、下载安装包2、解压安装包到对应的目录3、修改配置文件4、分发安装包5、启动集群,进行验证3、集群部署的基础环境准备1、安装 JDK 1...翻译 2019-04-04 20:23:28 · 161 阅读 · 0 评论 -
ElasticSearch简介
前言:百事不决问百度,万事不决问谷歌!随着信息量,数据量越来越大的今天,如何从海量的数据中聚焦关注点,提高我们的工作、生活效率便显得非常的重要。而我们经常使用的百度等搜索引擎就能帮助我们从浩如烟海的数据中挖掘提取出自己的感兴趣的地方。是怎么做到的呢,就是需要全文索引的技术来完成,我们知道可以查询的有数据库,但是数据库中的数据量一大就会变的非常的缓慢,而且都是模糊查询,数据量有非常的巨大,二者比较...翻译 2019-04-04 20:38:49 · 207 阅读 · 0 评论 -
Storm简介
1、Storm简介Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Sto...转载 2019-04-04 21:37:10 · 436 阅读 · 0 评论 -
Storm集群架构及搭建
Storm集群,利用了分布式系统中经典的master/slave架构。以下显示的是一个Storm集群,其中master节点为Nimbus,slave节点有四个,称之为supervisor。在传统的master/slave架构中,都是master节点负责任务的接受、分配、监控等管理任务,从节点负责任务的执行。总的来说,storm中的主从架构,基本上也符合这个规则。(以下纯属个人理解)不过sto...转载 2019-04-04 21:43:48 · 316 阅读 · 0 评论 -
HDFS 相关概念和特性
1.HDFS 设计思路HDFS 被设计成用来使用低廉的服务器来进行海量数据的存储,那是怎么做到的呢?1、 大文件被切割成小文件,使用分而治之的思想让很多服务器对同一个文件进行联合管理2、 每个小文件做冗余备份,并且分散存到不同的服务器,做到高可靠不丢失2.HDFS 架构主节点 Namenode:集群老大,掌管文件系统目录树,处理客户端读且请求SecondaryNamenode:严格说...翻译 2019-03-31 16:52:20 · 194 阅读 · 0 评论 -
100道hadoop常见面试题及答案解析
1 单选题1.1 下面哪个程序负责 HDFS 数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker答案 C datanode1.2 HDfS 中的 block 默认保存几份?a)3 份b)2 份c)1 份d)不确定答案 A 默认 3 分1.3 下列哪个程序通常与 NameNode 在一...转载 2019-04-02 20:48:26 · 7396 阅读 · 0 评论