hadoop学习
唯pc远方
这个作者很懒,什么都没留下…
展开
-
hadoop学习之hadoop完全分布式集群安装
hadoop学习之hadoop完全分布式集群安装注:本文的主要目的是为了记录自己的学习过程,也方便与大家做交流。转载请注明来自:http://blog.csdn.net/ab198604/article/details/8250461 要想深入的学习hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想转载 2015-09-28 19:40:12 · 319 阅读 · 0 评论 -
Hive 基础之:分区、桶、Sort Merge Bucket Join
Hive 基础之:分区、桶、Sort Merge Bucket JoinHive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个转载 2016-03-22 11:27:40 · 505 阅读 · 0 评论 -
MapReduce 中的两表 join 几种方案简介
MapReduce 中的两表 join 几种方案简介1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。转载 2016-03-22 11:30:50 · 313 阅读 · 0 评论 -
【Hadoop基础】hadoop fs 命令
【Hadoop基础】hadoop fs 命令1,hadoop fs –fs [local | ]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的had转载 2016-03-11 15:42:04 · 477 阅读 · 0 评论 -
hbase 索引记录
hbase 索引记录根本目的是实时的查询速度从两方面来看:一、HBase自身的原理,机制。二、索引的原理机制。一、HBase:reference:HBase技术介绍|淘宝技术博客http://www.searchtb.com/2011/01/understanding转载 2016-03-25 14:33:13 · 431 阅读 · 0 评论 -
Hadoop 的HA高可集群用性
Hadoop 的HA高可集群用性一、 Hadoop 的高可用性1. 概论本指南提供了一个HDFS 的高可用性(HA )功能的概述,以及如何配置和管理HDFS 高可用性(HA) 集群。本文档假定读者具有对HDFS 集群的组件和节点类型具有一定理解。有关详情,请参阅Apache 的HDFS 的架构指南。http://hadoop.apache.org/common/转载 2016-03-15 15:18:05 · 280 阅读 · 0 评论 -
MapReduce:详解Shuffle(copy,sort,merge)过程
MapReduce:详解Shuffle(copy,sort,merge)过程Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRe转载 2016-04-08 11:54:34 · 641 阅读 · 0 评论 -
Namenode HA原理详解(脑裂)
Namenode HA原理详解(脑裂)目录(?)[+]Namenode HA原理详解社区hadoop2.2.0 release版本开始支持NameNode的HA,本文将详细描述NameNode HA内部的设计与实现。 为什么要Namenode HA?1. NameNode High Availability即高可用转载 2016-07-18 11:08:32 · 3793 阅读 · 0 评论 -
HBase高性能复杂条件查询引擎
HBase高性能复杂条件查询引擎写在前面本文2014年7月份发表于InfoQ,HBase的PMC成员Ted Yu先生参与了审稿并于给予了肯定。该方案设计之初仅寄希望于通过二级索引提升查询性能,由于在前期架构时充分考虑了通用性以及对复杂条件的支持,在后来的演变中逐渐被剥离出来形成了一个通用的查询引擎。Ted Yu对“查询决策器”表示了关心,他指出类似的组件同时也是Phoenix, I转载 2016-09-01 10:44:40 · 1195 阅读 · 0 评论 -
hadoop hive sql语法解释
hadoop hive sql语法解释DDL Operations创建内部表hive> CREATE TABLE pokes (foo INT, bar STRING); 创建内部表并创建分区dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 创建外转载 2016-03-22 11:19:26 · 382 阅读 · 0 评论 -
sqoop常用命令
sqoop常用命令目录(?)[+]1、列出mysql数据库中的所有数据库 sqoop list-databases --connect jdbc:mysql://localhost:3306/ -username dyh -password 000000 2、连接mysql并列出数据库中的表sqoop list-tables --转载 2016-03-10 10:12:15 · 641 阅读 · 0 评论 -
hdfs简介
hdfs简介Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多的 小的工作单元,并把这些单元放到任何集群节点上执行。在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出 得、运行于各个计算节点的工作单元称为“任务(task)”。此外,Hadoop提供的分布式文件系统转载 2016-03-31 13:41:56 · 700 阅读 · 0 评论 -
Hadoop Shell 讲解
Hadoop Shell 讲解概述 所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。 用法:hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS] Hadoop有一个选项解析框架用于解析一般的选项和运行类。转载 2016-03-16 13:14:04 · 269 阅读 · 0 评论 -
【一】HDFS简介
【一】HDFS简介HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。----------------转载 2016-03-16 14:41:16 · 398 阅读 · 0 评论 -
Hadoop关于处理大量小文件的问题和解决方法
Hadoop关于处理大量小文件的问题和解决方法摘要:小文件指的是那些size比HDFS 的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。 而HDFS的问题在于无法很有效的处小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果转载 2016-03-16 14:43:41 · 743 阅读 · 0 评论 -
Hadoop Rack Aware 机架感知
Hadoop Rack Aware 机架感知副本的存放是HDFS可靠性和性能的关键。优化的副本存放策略是HDFS区分于其他大部分分布式文件系统的重要特性。这种特性需要做大量的调优,并需要经验的积累。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。目前实现的副本存放策略只是在这个方向上的第一步。实现这个策略的短期目标是验证它在生转载 2016-03-29 17:51:20 · 1176 阅读 · 0 评论 -
Hadoop学习笔记:MapReduce框架详解
Hadoop学习笔记:MapReduce框架详解开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题转载 2016-03-17 16:49:31 · 303 阅读 · 0 评论 -
hadoop学习WordCount+Block+Split+Shuffle+MapReduce详解
hadoop学习WordCount+Block+Split+Shuffle+MapReduce详解Shuffle过程是MapReduce的核心,集中了MR过程最关键的部分。要想了解MR,Shuffle是必须要理解的。了解Shuffle的过程,更有利于我们在对MapReduce job性能调优的工作有帮助,以及进一步加深我们队MR内部机理的了解。Shuffle到底是什么,自己在参考一转载 2016-03-17 17:18:16 · 915 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop 新 MapReduce 框架 Yarn 详解 原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同转载 2016-03-18 10:19:41 · 362 阅读 · 0 评论 -
Hive 基础之:分区、桶、Sort Merge Bucket Join
Hive 基础之:分区、桶、Sort Merge Bucket JoinHive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个Hadoo转载 2016-12-30 15:45:09 · 732 阅读 · 0 评论