Hadoop
文章平均质量分 77
gongpulin
微信:gongpulin,申请好友请注明城市-技术方向-姓名
展开
-
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
转载:http://www.powerxing.com/install-hadoop/当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有 Hadoop 安装配置教程,但由于对 Linux 环境不熟悉,书上跟官网上简略的安装步骤新手往往 Hold 不住。加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打转载 2016-01-02 13:06:42 · 415 阅读 · 0 评论 -
HDFS NameNode重启优化
转载:https://tech.meituan.com/namenode-restart-optimization.html一、背景在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用性和可靠性的风险,所以优化NameNode重启非常关键。本文基于Hadoop-2.x和HA with QJM社区架构和...转载 2018-06-02 20:20:44 · 1045 阅读 · 0 评论 -
HDFS Federation在美团点评的应用与改进
转载:https://tech.meituan.com/hdfs-federation.html一、背景2015年10月,经过一段时间的优化与改进,美团点评HDFS集群稳定性和性能有显著提升,保证了业务数据存储量和计算量爆发式增长下的存储服务质量;然而,随着集群规模的发展,单组NameNode组成的集群也产生了新的瓶颈:扩展性:根据HDFS NameNode内存全景和HDFS NameNode内存...转载 2018-06-02 20:19:53 · 605 阅读 · 0 评论 -
HDFS NameNode内存全景
转载:https://tech.meituan.com/namenode.html一、概述从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以,从更高层次掌握NameNode的内部结构和运行机制尤其重要。...转载 2018-06-02 20:04:16 · 272 阅读 · 0 评论 -
mapreduce 实现内连接,左连接,右连接,全连接,反连接
数据集user(id name)用户表1 user12 user23 user34 user45 user56 user6post(userid postid postname)帖子表1 1 post11 2 post22 3 post34 4 post45 5 post58 6 post68 7 post78 8 post8package com.test;imp...原创 2018-03-06 16:50:11 · 406 阅读 · 0 评论 -
MapReduce理解-深入理解MapReduce
前面的几篇博客主要介绍了Hadoop的存储HDFS,接下来几篇博客主要介绍Hadoop的计算框架MapReduce。本片博客主要讲解MapReduce框架的具体执行流程,以及shuffle过程,当然这方面的技术博客已经特别多而且都写得很优秀,我写本篇博客之前也有过相关阅读,受益匪浅。对一些博客和资料的参考都会才博客下方参考资料中列出。MapReduce理解MapRedeuce,我们可以把它分开来理...转载 2018-03-15 21:09:02 · 668 阅读 · 0 评论 -
hive udf开发超详细手把手教程
http://blog.csdn.net/bitcarmanlee/article/details/51249260Hive中,除了提供丰富的内置函数(见[一起学Hive]之二–Hive函数大全-完整版)之外,还允许用户使用Java开发自定义的UDF函数。开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hive.ql.exec.UDF,另一个是继承org.apache...转载 2018-02-28 23:00:50 · 1562 阅读 · 0 评论 -
【性能优化】Hive优化
1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗...转载 2018-03-07 22:27:09 · 212 阅读 · 0 评论 -
HBase在滴滴出行的应用场景和最佳实践
HBase在滴滴出行的应用场景和最佳实践2017-06-19 CSDN云计算本文主要介绍HBase在滴滴内部的一些典型使用场景,如何设计整个业务数据流,让平台开发者与用户建立清晰、明确、良好的合作关系背景对接业务类型HBase是建立在Hadoop生态之上的Database,源生对离线任务支持友好,又因为LSM树是一个优秀的高吞吐数据库转载 2017-10-24 23:22:37 · 2002 阅读 · 0 评论 -
HBase最佳实践-用好你的操作系统
转载:http://hbasefly.com/2017/05/24/hbase-linux/终于又切回HBase模式了,之前一段时间因为工作的原因了解接触了一段时间大数据生态的很多其他组件(诸如Parquet、Carbondata、Hive、SparkSQL、TPC-DS/TPC-H等),虽然只是走马观花,但也受益良多。对视野、思维模式都有极其重要的作用,至少,扩展了大数据领域的对话圈。这转载 2017-10-24 23:03:58 · 274 阅读 · 0 评论 -
Hbase多列范围查找(效率)
转载:http://www.cnblogs.com/kxdblog/p/4328699.html#3734157Hbase多列范围查找(效率) Hbase索引表的结构Hbase Rowkey 设计Hbase FilterHbase二级索引 Hbase索引表的结构 在HBase中,表格的Rowkey按照字典排序,Region按照Row转载 2017-10-24 13:27:46 · 2470 阅读 · 0 评论 -
Hbase架构以及应用介绍
Hbase全称为Hadoop Database,即hbase是hadoop的数据库,是一个分布式的存储系统。Hbase利用Hadoop的HDFS作为其文件存储系统,利用Hadoop的MapReduce来处理Hbase中的海量数据。利用zookeeper作为其协调工具。 本篇文章将重点介绍Hbase三个方面的内容:Hbase体系结构(架构)的介绍、Hbase shell的操作、Hbase的Jav转载 2017-07-08 21:15:03 · 510 阅读 · 0 评论 -
Sqoop架构以及应用介绍
本篇文章在具体介绍Sqoop之前,先给大家用一个流程图介绍Hadoop业务的开发流程以及Sqoop在业务当中的实际地位。 如上图所示:在实际的业务当中,我们首先对原始数据集通过MapReduce进行数据清洗,然后将清洗后的数据存入到Hbase数据库中,而后通过数据仓库Hive对hbase中的数据进行统计与分析,分析之后将分析结果存入到hive表中,然后通过Sqoop这个工具将我们的数据挖转载 2017-07-08 18:59:26 · 396 阅读 · 0 评论 -
hive优化
hive的查询注意事项以及优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段sele转载 2017-04-20 10:36:04 · 291 阅读 · 0 评论 -
【漫画解读】HDFS存储原理
根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。 一、角色出演 如上图所示,HDFS存储相关角色与功能如下: Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。 Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与client交互进行提供转载 2016-07-16 12:24:38 · 778 阅读 · 0 评论 -
大数据hadoop 面试经典题
1.从前到后从你教育背景(学过哪些课)到各个项目你负责的模块,问的很细(本以为他是物理学博士,但是所有的技术都懂)2.hadoop 的 namenode 宕机,怎么解决先分析宕机后的损失,宕机后直接导致client无法访问,内存中的元数据丢失,但是硬盘中的元数据应该还存在,如果只是节点挂了,重启即可,如果是机器挂了,重启机器后看节点是否能重启,不能重启就要找到原因修复了。但是最终的解决方案应...转载 2018-11-19 15:22:00 · 9324 阅读 · 1 评论