skyWalker_ONLY-CSDN博客

简介Java虚拟机（JVM）是Java应用的运行环境，从一般意义上来讲，JVM是通过规范来定义的一个虚拟的计算机，被设计用来解释执行从Java源码编译而来的字节码。更通俗地说，JVM是指对这个规范的具体实现。这种实现基于严格的指令集和全面的内存模型。另外，JVM也通常被形容为对软件运行时环境的实现。通常JVM实现主要指的是HotSpot。JVM规范保证任何的实现都能够以同样的方式解

2014-11-03 09:45:55 2019 1

原创 Hadoop-2.4.1学习之HDFS文件权限和ACL

之前在论坛看到一个关于HDFS权限的问题，当时无法回答该问题。无法回答并不意味着对HDFS权限一无所知，而是不能准确完整的阐述HDFS权限，因此决定系统地学习HDFS文件权限。HDFS的文件和目录权限模型共享了POSIX（Portable Operating System Interface，可移植操作系统接口）模型的很多部分，比如每个文件和目录与一个拥有者和组相关联，文件或者目录对于拥有者、组内

2014-11-02 14:40:02 17815 3

原创 Hadoop-2.4.1学习之edits和fsimage查看器

在hadoop中edits和fsimage是两个至关重要的文件，其中edits负责保存自最新检查点后命名空间的变化，起着日志的作用，而fsimage则保存了最新的检查点信息。这个两个文件中的内容使用普通文本编辑器是无法直接查看的，幸运的是hadoop为此准备了专门的工具用于查看文件的内容，这些工具分别为oev和oiv，可以使用hdfs调用执行。

2014-10-31 10:31:03 7450 1

原创 Hadoop-1.2.1学习之Job创建和提交源代码分析

在Hadoop中，MapReduce的Java作业通常由编写Mapper和Reducer开始，接着创建Job对象，然后使用该对象的set方法设置Mapper和Reducer以及诸如输入输出等参数，最后调用Job对象的waitForCompletion(true)方法提交作业并等待作业的完成。尽管使用了寥寥数语就描述了作业的创建和提交，但实际情况要复杂的多，本篇文章将通过分析源代码来深入学习该过程。

2014-10-27 16:05:50 3102 1

原创 Hadoop-2.4.1学习之HDFS快照

HDFS快照是文件系统的只读的实时的拷贝，可以是文件系统的一部分或者整个文件系统。快照的一些通用场景是数据备份，对用户错误的保护和灾难恢复。HDFS的快照实现是高效的：l 快照的创建时瞬间完成的，排除查找inode的时间，需要花费O(1)，即常数时间。l 只有执行与快照相关的修改时才需要额外的内存，内存开销为O(M)，M为修改的文件或者目录的数量。l DataNodes中的块不会

2014-10-23 14:03:56 5253 1

原创 Hadoop-2.4.1学习之ViewFs

视图文件系统（View File System ，ViewFs）提供了管理多个Hadoop文件系统命名空间的方式，该系统在HDFS联盟的集群中有多个NameNode（因此有多个命名空间）是特别有用。ViewFs与某些Linux或Unix系统的客户端挂载表类似，可以被用于创建个性化的命名空间视图和整个集群共同的视图。本篇文章基于拥有几个集群，集群互相联合形成多个命名空间的Hadoop系统，也学习了在

2014-10-22 11:37:14 9397 1

原创 Hadoop-2.4.1学习之QJM HA的自动故障转移

前面学习了使用命令hdfs haadmin -failover手动进行故障转移，在该模式下，即使现役NameNode已经失效，系统也不会自动从现役NameNode转移到待机NameNode，下面学习如何配置部署HA自动进行故障转移。自动故障转移为HDFS部署增加了两个新组件：ZooKeeper和ZKFailoverController（ZKFC）进程。ZooKeeper是维护少量协调数据，通知客户

2014-10-20 15:11:43 7789 2

原创 Hadoop-2.4.1学习之使用Quorum Journal Manager的HDFS的高可用性（三）

在学习了如何配置HA后，接下来是启动和管理HA。要启动HA集群，首先要在所有运行JournalNode的主机上启动JournalNodes守护进程，可以在每台主机上执行命令hdfs journalnode启动journalnode守护进程。在journalnode守护进程启动完成之后，必须首先同步两个 NameNode硬盘上的元数据，具体如下：l 如果正在搭建全新的HDFS集群，应该首先在其

2014-10-17 21:33:23 3610 1

原创 Hadoop-2.4.1学习之使用Quorum Journal Manager的HDFS的高可用性（二）

在了解了HA的特性和架构后，接下来学习如何配置管理HA，在学习与配置HA有关的参数之前，先明确部署HA所需要的主机数量。由HA的架构可知，存在两个NameNode主机，一个为现役NameNode主机，一个为待机NameNode主机，二者的硬件配置应该相同，同时还要有运行JournalNodes的主机。由于JournalNode守护进程是相对轻量级的，那么这些守护进程可与其它Hadoop守护进程，如

2014-10-14 16:06:55 3804 2

原创 Hadoop-2.4.1学习之配置管理HDFS联盟

Hadoop-1.x版本中的HDFS架构在整个集群中只允许一个命名空间，由一个NameNode管理整个命名空间，Hadoop-2.x版本中的HDFS联盟通过支持多个NameNode和命名空间解决了之前架构的局限性。HDFS联盟的配置管理是向后兼容的，允许现存的单节点NameNode配置在不需要任何修改的情况下工作正常。新的配置管理允许集群中的所有节点使用相同的配置而不需要根据节点的不同类型部署不同

2014-10-13 16:53:23 4619

原创 Hadoop-2.4.1学习之使用Quorum Journal Manager的HDFS的高可用性（一）

在Hadoop-2.x版本之前，HDFS集群中的NameNode是单点故障的，即整个集群中只存在一个NameNode，虽然存在SecondaryNameNode，但由于二者关于命名空间的数据有可能不一致，比如NameNode在两次检查点间隔之间出现问题，这势必会导致部分数据的丢失。如果NameNode所在的主机或者namenode进程不可用，整个集群直到NameNode重启或者转移到Seconda

2014-10-11 16:16:53 2517

原创 Hadoop-2.4.1学习之Hadoop命令

在Hadoop-1.x版本中主要使用hadoop脚本执行各种命令，包括运行jar文件（jar），运行文件系统客户端（fs），运行HDFS管理客户端（dfsadmin）等，但Hadoop-2.x将hadoop脚本拆分为hadoop、hdfs、mapred几个脚本，并新增了yarn脚本用于执行与yarn有关的命令。在命令行直接执行上述脚本都会输出该脚本的使用方法，比如hadoop。其中--config

2014-10-09 15:14:39 2646

原创 Hive学习之自定义聚合函数

编写Hive的UDAF函数

2014-10-07 15:58:02 6249

原创 Linux下安装MySQL

之前在配置MySQL做为Hive的Metastore时，曾安装过MySQL，但可惜的是并没有记录整个过程。现在忽然发现MySQL不能使用了，试过网上的很多方法都不行，所以决定将MySQL卸载掉，重新安装，并记录整个过程以备再次重装MySQL。首先使用下面的命令查询已经安装的MySQL：[root@hadoop local]# rpm -qa | grep -i mysqlMySQL-clie

2014-10-05 22:05:12 2115

原创 Hadoop-2.4.1学习之创建fsimage和edits源码分析

在Hadoop中fsimage保存最新的检查点信息，edits保存自最新检查点后的命名空间的变化。在分析hdfs namenode–format的源代码时，已经明确了该过程根据配置文件的信息创建fsimage和edits文件，这篇文章具体分析一下创建fsimage和edits文件的源代码。

2014-09-24 15:15:37 3275

翻译 Hive学习之连接查询优化（二）

星型连接增强功能Hive-0.11.0中优化器的增强功能专注于星型模式配置中连接的有效处理。星型模式连接的初始化工作是受限制的，在该模式中所有维度表在过滤和投影后在同一时间装入内存。一部分维度表装入内存的场景还未实现。连接查询优化可以被分为三部分：· 当使用MAPJOIN时，在只有map的一个作业中执行操作符树中的map连接链。· 自动转换情况的扩展优化（在

2014-09-22 16:43:29 6119

翻译 Hive学习之连接查询优化（一）

Hive为连接查询提供了一系列的优化方法，包括优化Hive的查询执行计划以改进连接查询的效率和减少用户提示的使用等。Hive可以自动识别很多用例并自动优化它们，Hive在0.11版本中对下面的情况改进了优化器：· 连接查询的一端放进内存中，在新的优化器中：· 放进内存的一端在内存中以哈希表存在· 只有比较大的表需要扫描· 事实

2014-09-22 11:24:39 4076

原创 Hive学习之抽样（Sampling）

当数据量特别大时，对全体数据进行处理存在困难时，抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性，是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。Hive支持桶表抽样和块抽样，下面分别学习。所谓桶表指的是在创建表时使用CLUSTERED BY子句创建了桶的表。桶表抽样的语法如下：table_sample: TABLESAMPLE (BUCKET x

2014-09-18 12:59:23 27811

原创 Hadoop-2.4.1学习之NameNode -format源码分析

Hadoop-2.4.1 namenode格式化的源代码分析

2014-09-16 16:36:10 6259

翻译 Hive学习之Union和子查询

Hive中的Union查询已经使用过多次，但在使用之前都没有系统的学习过Union的语法格式（虽然在使用过程中没有出现过问题），所以现在将这一点补上。Union的语法格式如下：

2014-09-15 16:17:10 21573

空空如也

空空如也