Hadoop
文章平均质量分 81
strongyoung88
记录学习点滴,勇攀技术高峰!
GitBook地址
/<a href="https://www.gitbook.com/@strongyoung">Qiang Yang/</a>
展开
-
Hive中Map任务和Reduce任务数量计算原理
Hive中Map任务和Reduce任务数计算原理MapReduce原理Map阶段(以FileInputFormat为例)步骤:map, partition, sort, combinerInputFormat负责计算分片,一个分片对应一个Map任务,InputFormat而且还负责创建RecordReader,通过RecordReader的next()方法,然后循环调用map()方法...原创 2020-04-30 16:37:19 · 3370 阅读 · 0 评论 -
Hadoop源码学习-运行实例
Hadoop源码学习,以运行实例开始原创 2016-12-12 15:44:49 · 2312 阅读 · 0 评论 -
Hadoop源码学习-以创建目录为例
在终端输入命令hadoop fs -mkdir dir时,最后是转换成运行JAVA程序,执行类FsShell,并传递相应的参数。在类FsShell里的执行过程类FsShell是使用命令hadoop fs时执行的类,它的功能就是:运行一个通用文件系统客户端,能够对文件系统进行相关操作。原创 2016-12-13 13:58:33 · 2311 阅读 · 0 评论 -
HDFS的架构
Hadoop Distributed File System(HDFS)是一个分布式的文件系统,它可以运行在普通硬件之上。它与其他的分布式文件系统有许多相似之处,然而,它与其他的分布式文件系统的区别也很明显。HDFS的容错能力极强,最初的设计是可将其部署在廉价的硬件之上。HDFS对应用数据提供了高吞吐量的访问,适合那些具有大量数据集的应用。翻译 2016-12-15 11:12:55 · 3081 阅读 · 0 评论 -
Flume 1.7.0安装与实例
Flume 1.7.0安装与实例原创 2016-11-03 19:48:10 · 19292 阅读 · 0 评论 -
使用SparkSQL/DataFrame读取HBase表
HBase-Spark Connector手段DataSource是在Spark-1.2.0引入的,在简单的HBase KV存储和复杂的关系型SQL查询之间架起了桥梁,使得用户可以在HBase上使用Spark执行复杂的数据分析工作。HBase Dataframe是一个标准的Spark Dataframe,能够与任何其他的数据源进行交互。翻译 2016-08-13 08:53:50 · 22514 阅读 · 32 评论 -
Hadoop源码学习-编译源码
编译源码非常简单,步骤如下:下载源代码安装依赖软件或库编译打包 下载源码官方下载并解压,过程略查看编译要求切换到解压后的hadoop源码根目录 此目录下有个BUILDING.txt文件,里面有对building的详细说明,以Linux为例,要求如下:Unix SystemJDK 1.7+Maven 3.0 or laterFindbugs ...原创 2017-04-02 11:37:00 · 4202 阅读 · 0 评论 -
Hadoop源码学习-脚本命令(hadoop fs -ls)执行细节
Hadoop有提供一些脚本命令,以便于我们对HDFS进行管理,可以通过命令hadoop fs进行查看: 通过以上使用说明可以发现,里面提供了大多数和我们在本地操作文件系统相类似的命令,例如,cat查看文件内容,chgrp改变用户群组权限,chmod改变用户权限,chown改变用户拥有者权限,还有创建目录,查看目录,移动文件,重命名等等。hadoop fs -ls这里,我们来看看命令hadoop原创 2017-04-02 22:18:13 · 23967 阅读 · 1 评论 -
HDFS高可用 -Quorum Journal Manager
High Availibility 高可用要实现Hadoop的高可用,有两种方式: - Quorum Journal Manager - Network File SystemUsing Quorum Journal Manager对于这种方式,根据对官方文档的理解,我画了个图,如下: 图上表述了一个集群大概的样子,有3个DataNode, 有两个NameNode,一个是Active原创 2017-04-05 21:18:46 · 1231 阅读 · 0 评论 -
Apache Hadoop YARN Architecture
Apache Hadoop YARN ArchitectureYARN的基本理念是要将资源管理器和作业调度/监控分离成独立的守护进程。这个理念就是说,要有一个全局的ResourceManager(RM)和每个应用有一个ApplicationMaster (AM),一个应用可以是一个单一的作业,也可以是作业中的一个有向无环图(DAG)。ResourceManager和NodeManager原创 2017-04-15 12:25:19 · 550 阅读 · 0 评论 -
Hadoop YARN
概述Map输入key/value对,输出key/value对中间结果。Map是独立的任务,它将输入记录转换成中间记录,转换的中间记录与输入记录不需要保持相同的类型。对于一个输入key/value对,可能产出0个或多个输出key/value对。The Hadoop Map-Reduce framework spawns one map task for each InputSplit gene...原创 2018-09-20 16:45:55 · 641 阅读 · 0 评论 -
Mac系统搭建Hive源码远程调试环境
环境准备JDK这个一定需要,不管是Hadoop,还是Hive的运行,都依赖这个。HadoopHadoop的安装比较简单,从官网下载一个包,解压,然后配置几个核心的xml就可以了。Hive源码从官网下载一个Hive的源码包,我下载的是3.1.1Intellij IDEA建议下载community版Maven编译Hive源码时需要启动Hadoop切换到Hadoop的安装目录...原创 2019-03-03 14:29:14 · 907 阅读 · 0 评论 -
CentOS7使用本地库(Local Repository)安装Ambari-2.4.1和HDP-2.5.0
前言大多数情况下,我们在linux环境中安装软件都是使用在线安装的方式,比如centOS的 yum,ubuntu的apt-get,但是,有些时候,我们需要安装软件,但并没有网络,或网速并不快,比如公司的集群,很可能是没有外网的,有些库是国外的库,下载速度非常慢,这个时候,如果有个本地库,这个问题就能比较好的解决了 。当然,并不是说所有的软件都做成本地库,这里只是把安装Ambari和HDP的库本地化。原创 2016-11-15 11:15:49 · 37427 阅读 · 1 评论 -
Hive安装与配置
Hive的安装与配置原创 2016-11-02 14:54:13 · 931 阅读 · 0 评论 -
在eclipse中关联Hadoop源代码
将Hadoop源码关联到eclipse中,方便阅读和调试程序!原创 2015-05-07 21:32:05 · 1745 阅读 · 0 评论 -
Hadoop学习之HDFS文件读取
文件内容读取的代码可以分为三个大步骤。 1、获取文件系统 2、通过文件系统打开文件 3、将文件内容输出原创 2015-05-09 16:24:48 · 12385 阅读 · 1 评论 -
Hadoop学习之HDFS的相关操作
使用Hadoop2.4.1的JAVA API进行HDFS的相关操作原创 2015-05-09 10:00:49 · 945 阅读 · 0 评论 -
错误: 找不到或无法加载主类
错误: 找不到或无法加载主类原创 2015-08-16 13:18:02 · 14900 阅读 · 3 评论 -
Hadoop自定义Writable实现二次排序
Hadoop自定义Writable实现二次排序原创 2015-11-22 22:33:24 · 991 阅读 · 0 评论 -
Hadoop实现单词出现次数排序
Hadoop实现单词出现次数排序原创 2015-11-23 18:29:27 · 2724 阅读 · 0 评论 -
多种输入的MapReduce程序实例
多种输入的MapReduce程序原创 2015-11-21 10:55:29 · 462 阅读 · 0 评论 -
编写Spark程序并提交到集群上运行
使用SCALA IDE, 編写Spark应用程序,提交到Spark集群上运行,最后查看结果原创 2016-07-24 15:08:07 · 5044 阅读 · 0 评论 -
Spark对HDFS上json数据的简单操作
Spark对HDFS上json数据的操作非常方便,本文以两种方式进行简单介绍,分别为Spark Shell 和 编写Scala应用程序。原创 2016-07-25 11:05:54 · 11701 阅读 · 3 评论 -
使用JAVA连接HBase时查询数据时,无限等待问题
代码就不贴了,直接上打印出来的log情况。以下是log,然后一直等待,没有结果16/07/21 09:22:36 INFO zookeeper.ZooKeeperWrapper: Reconnecting to zookeeper16/07/21 09:22:36 INFO zookeeper.ZooKeeper: Client environment:zookeeper.version=3.4.原创 2016-07-21 11:15:09 · 7443 阅读 · 3 评论 -
搭建大数据处理集群(Hadoop,Spark,Hbase)
搭建Hadoop集群配置每台机器的 /etc/hosts保证每台机器之间可以互访。 120.94.158.190 master 120.94.158.191 secondMaster1、创建hadoop用户 先创建hadoop组 sudo addgroup hadoop 然后再建一个hadoop用户加入到hadoop组,(前一个为组,后一个为用户)原创 2016-07-18 11:08:14 · 3435 阅读 · 0 评论 -
NameNode中几个关键的数据结构
转载地址:http://blog.csdn.net/AE86_FC/article/details/5842020NameNode启动过程详细剖析NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editl转载 2014-09-15 10:08:25 · 2131 阅读 · 0 评论