Hadoop
文章平均质量分 77
ywendeng
在这我将记录我软件开发的经验和常见问题-万丈高楼平地起,勿在浮沙筑高台。
展开
-
hadoop 中常见的异常与解决办法
ssh: Could not resolve hostname library: Temporary failure in name resolution put: ._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) runing and no node(s)原创 2016-04-26 17:08:56 · 1208 阅读 · 0 评论 -
详解Hive的架构、工作原理及安装步骤
一、Hive是什么? Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行,通过自己的 SQL 去 查询分析需要的内容,这套 SQL 简称 Hive SQL。 二原创 2016-04-23 10:24:17 · 13283 阅读 · 0 评论 -
hadoop分布式集群部署步骤总结
一、理论基础( 一) HA 概念以及作用 HA(High Available), 高可用性群集,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。从而实现业务的不中断原创 2016-04-25 21:05:17 · 16942 阅读 · 0 评论 -
Hive 的性能调优总结
一、优化的常用手段了解数据分布、解决数据倾斜问题减少job数设置合理的map reduce的task数,能有效提升性能。数据量较大的情况下,慎用count(distinct)。对小文件进行合并,是行至有效的提高调度效率的方法。二、 Hive的数据类型方面的优化优化原则 按照一定规则分区(例如根据日期)。通过分区,查询的时候指定分区,会大大减少在无用数据上的扫描, 同时也非常方便数据原创 2016-06-03 16:10:03 · 1768 阅读 · 0 评论 -
深入理解Yarn的架构及作业调度机制
一、YARN 架构由什么组成?首先我们来看看 YARN 的架构图,如下图所示。 从 YARN 的架构图来看,它主要由ResourceManager、NodeManager、ApplicationMaster和Container等以下几个组件构成。 1、 ResourceManager(RM) YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序原创 2016-04-22 20:50:45 · 3930 阅读 · 2 评论 -
详解Sqoop的架构和安装部署
一、Sqoop是什么Sqoop 是连接传统关系型数据库和 Hadoop 的桥梁。它包括以下两个方面: 1、 将关系型数据库的数据导入到 Hadoop 及其相关的系统中,如 Hive和HBase。 2、 将数据从 Hadoop 系统里抽取并导出到关系型数据库。 Sqoop 的核心设计思想是利用 MapReduce 加快数据传输速度。也就是说 Sqoop 的导入和导出功能是原创 2016-05-18 09:11:35 · 9407 阅读 · 0 评论 -
使用Java API 操作Hbase表出现异常:Exception in thread "main" java.lang.NoClassDefFoundError
Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at com.ywendeng.hbase.HbseTable.(HbseTable.java:23) at java.lang.Class.forName0(Native Me原创 2016-05-30 21:08:12 · 2746 阅读 · 0 评论 -
hadoop 中NameNode和SecondaryNameNode的工作原理
什么是NameNode? NameNode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。文件包括:fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。edits:操作日志文件。fstime:保存最近一次checkpoint的时间SecondaryNameNode的主要作用?原创 2016-04-14 22:48:27 · 2028 阅读 · 0 评论 -
深入理解ZooKeeper基本原理及安装部署
**1. ZooKeeper 是什么** ZooKeeper 是一个针对大型分布式系统的可靠协调系统;它提供的功能包括:配置维护、名字服务、分布式同步、组服务等; 它的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。**2. ZooKeeper特点**ZooKeeper 主要包含以下几个特点:1)、最终一致性:为客户端展示同一视图,这是 ZooKeeper原创 2016-04-21 16:09:21 · 9760 阅读 · 0 评论 -
深入理解海量日志收集利器 Flume
一、Flume是什么 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。二 、Fulme 有什么特点Fulme 特点如下: 1、可靠性 当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to原创 2016-05-04 21:54:37 · 2756 阅读 · 0 评论 -
MapReduce编程模型及优化技巧
(一)MapReduce 编程模型(如果你已经了解请直接进入第二部分MapReduce 的优化讲解) 在学习MapReduce 优化之前我们先来了解一下MapReduce 编程模型是怎样的? 下图中红色的标注表示没有加入Combiner和Partitioner来进行优化。 上图的流程大概分为以下几步。 第一步:假设一个文件有三行英文单词作为 MapReduce 的Input(输入原创 2016-04-20 18:57:07 · 7317 阅读 · 0 评论 -
深入理解MapReduce的架构及原理
MapReduce 定义 Hadoop 中的 MapReduce是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集MapReduce 特点 MapReduce 为什么如此受欢迎?尤其现在互联网+时代,互联网+公司都在使用 MapReduce。MapReduce 之所以如此受欢迎,它主要有以下几个特点原创 2016-04-20 15:43:59 · 13151 阅读 · 2 评论 -
Java API 与Hbase集群交互常用操作总结
HBase 与 Hadoop 一样,都是用 java 编写的,所以 HBase 对 java 支持是必需的,下面看看怎么使用java 语言对 HBase 进行操作。Java API 核心类总结如下: 1、 HBaseConfiguration 类 HBaseConfiguration 是每一个 HBase Client 都会使用到的对象,它代表 HBase 配置信息。有两种构造方式。p原创 2016-05-02 17:15:35 · 4439 阅读 · 0 评论 -
详解HBase架构原理及安装部署步骤
一、什么是HBase HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统;Google 运行MapReduce 来处理Bi原创 2016-05-02 10:34:41 · 7347 阅读 · 1 评论 -
hadoop 中实现一次将多文件上传至HDFS
需求场景分析 在某个单一操作中处理一系列文件是很常见的。例如一个日志处理的MapReduce作业可能要分析一个月的日志量。如果一个文件一个文件或者一个目录一个目录的声明那就太麻烦了,我们可以使用通配符(wild card)来匹配多个文件(这个操作也叫做globbing)。为了实现上面的需求,需要先掌握如下的知识点 2.1 Hadoop提供了两种方法来处理文件组: public F原创 2016-04-16 20:49:22 · 4601 阅读 · 0 评论 -
深入理解HDFS 的架构和原理
(一) HDFS主要是用于做什么的? HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(原创 2016-04-15 19:55:09 · 8336 阅读 · 0 评论 -
Hive高级操作总结(一)
一、视图的创建、查看、删除二、索引的创建三、hive中的分区操作四、桶操作原创 2016-04-28 21:41:17 · 1912 阅读 · 0 评论 -
Hive数据类型及常用操作总结(一)
sort by 不受 hive.mapred.mode 的值是否为 strict 和 nostrict 的影响。sort by 的数据只能保证在同一个 Reduce 中的数据可以按指定字段排序;DISTRIBUTE BY 排序查询 按照指定的字段对数据划分到不同的输出 Reduce 文件中;CLUSTER BY 查询 cluster by 除了具有 distribute by 的功能外还兼原创 2016-04-24 09:20:42 · 13564 阅读 · 0 评论