IT代码民工-CSDN博客

翻译 hadoop归档命令archive

hadoop命令：archivehadoop版本：2.6.0官方链接：https://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/HadoopArchives.html#Overview一. 引hadoop不适合小文件的存储，小文件本省就占用了很多的metadat...

2019-01-24 15:22:41 2305 1

原创 HDFS中的概念及设计（基础理论篇）

系列博客目录链接：Hadoop权威指南学习笔记：总章

2019-01-24 10:06:06 369

原创使用3台虚拟机搭建Hadoop HA集群（1）

工欲善其事，必先利其器，要学好大数据，就必须首先学会自己动手搭建Hadoop集群。本文章仅介绍搭建方法，因为资源有限，有些部署策略可能不适合实际应用。本部分包含如下内容：集群设计集群基础环境搭建一. 计划由于手头只有一台笔记本，因此选择在一台笔记本上搭建三台虚拟机来模拟集群。1. 节点资源分配IPHostname系统环境username内存储存CPU核数...

2018-12-18 12:46:28 2414

原创使用3台虚拟机搭建Hadoop HA集群（2）

本部分包含以下基本分内容安装部署zookeeper一. 部署zookeeper1. zooKeeper 软件安装须知鉴于 ZooKeeper 本身的特点，服务器集群的节点数推荐设置为奇数台。按照计划，此处规划三台。2. zookeeper下载操作节点：cloud2官方下载链接如下：https://archive.apache.org/dist/zookeeper/，选择合适版...

2018-12-18 12:46:11 1158

原创 NCDC数据集准备

系列博客目录链接：Hadoop权威指南学习笔记：总章可用数据集下载：本书所实际到的数据集皆为NCDC数据集，需要已经处理好的数据集的可点击如下链接去下载：气象数据气象站元数据一. 原始气象数据集下载：如果我们想获取更多的气象原始数据集时，我们可以通过NCDC的ftp服务器获取数据，实例如下NCDC FTP数据服务器：ftp.ncdc.noaa.govNCDC 原始文件路...

2018-12-07 15:41:59 4178

原创 Hadoop的简要介绍

系列博客目录链接：Hadoop权威指南学习笔记：总章零. 本节主要内容Hadoop产生的背景Hadoop的历史什么是HadoopHadoop的主要作用是什么Hadoop的基础架构一. Hadoop产生的背景在当今这个数据爆炸的时代，我们要想在未来取得成功，就不仅需要管理存储自己的数据，还要从其他企业或组织获取数据，此时我们就需要对大规模的数据进行存储分析，然而以往的关系型数...

2018-12-07 11:20:38 423

原创 Hadoop权威指南学习笔记：总章（未完结）

在写本系列博客之前，我已经将本书的第Ⅰ部分、第Ⅱ部分读了一遍。读第一遍是探索，读第二遍便是总结。我会结合我的理解、书本的知识及其学习过程中遇到的问题，对本书前两章所涉及到的内容进行总结。本篇博客主要记录了这一系列文章的索引，方便日后统一查阅。Hadoop的简要介绍HDFSHDFS中的概念及设计HDFS中的Java API接口HDFS的其他接口HDFS的数据一致性模型YARN...

2018-12-07 10:19:44 268

原创学习笔记：MapReduce计数器

一. 计数器计数器时收集作业，学习计数器可以帮助我们深入学习MapReduce原理，益处多多。二. 计数器分类。内置计数器任务计数器作业计数器自定义计数器java计数器streaming计数器三. 内置计数器内置计数器主要包含5类，分别如下：MapReduce计数器文件系统计数器FileInputFormat计数器FileoutputFormat计数器...

2018-12-01 17:40:02 384

原创学习笔记：MapReduce的几种输出格式类总结

引MapReduce输出格式类图。一. OutputFormat及其子类1. OutputFormat类本类主要用于描述输出数据的格式，它能够将用户提供的 key/value 对写入特定格式的文件中。主要涉及以下两个方法：RecordWriter<K, V> getRecordWriter(TaskAttemptContext var1)：根据TaskAttemptCon...

2018-11-26 20:40:24 1786

原创学习笔记：MapReduce输入格式

总结自书P218-P236以下皆为新API一. 输入分片与记录1. 输入分片与块输入分片：在mapreduce中为单个map才做来处理的输入块。一个map只处理一个分片数据。以下不说明时。分片即为输入分片。块：HDFS中文件的存储形式。默认情况下，一个分片即为一个快。2. MR中的分片表示输入分片在Java中表示为InputSplit接口，包含两个方法。public abst...

2018-11-22 17:10:21 1374

学习笔记：MapReduce的类型总结自8.1节：MapReduce的类型 P207-218零MapReduce中map与reduce函数遵循格式如下： map：（k1, v1） -&amp;gt; list(k2, v2) reduce：（k2, list(v2)）-&amp;gt; list(k3, v3)一般来说map函数输入的键/值（K1/V1）类型不同于输出类型（K2/V2），但m...

2018-11-20 19:08:33 467

原创学习笔记：MapReduce shuffle和排序（理论层级）

什么是shuffle：mapreduce确保每个reduce的输入都是按键排序的，系统执行排序、将map输出作为输入传给reducer的过程陈伟shuffle。零. 引总体逻辑图一. Map端...

2018-11-16 17:27:18 1246

原创学习笔记：MapReduce作业失败原因及其恢复过程（理论层级）

MR作业失败一般可能有以下五种情况：任务运行失败AM运行失败NM运行失败RM运行失败以上四种失败情况严重程度同以上排序，RM运行失败最为严重。任务运行失败异常模式用户代码抛出的异常jvm运行异常任务挂起任务异常后的处理过程...

2018-11-15 17:45:32 2513

原创 MapReduce作业运行机制

MapReduce作业运行机制总结自Hadoop权威指南一书作业运行机制中涉及到的实体客户端：主要任务是提交作业，下简称CLIYARN资源管理器：负责协调集群资源，即ResourceManager，下简称RMYARN节点管理器：负责启动和监视机器上的计算容器，即NodeManager，下简称NMMapreduce的Application master：负责协调运行MapReduc...

2018-11-14 10:49:58 315

原创配置IDEA开发环境向远程集群提交MapReduce应用

本文的主要目的本文主要记录了通过windows10上的IDEA向远程HADOOP集群提交应用的配置过程。安装配置HADOOP集群略安装配置IDEA略配置windows端HADOOP客户端复制集群中的hadoop文件夹到windows，作为windows上的hadoop客户端。配置windows hadoop环境变量HADOOP_HOME=D:\hadoop-ocdp3.5...

2018-11-13 16:25:18 3353

转载 Hadoop 配置API

Hadoop配置本文章在其他文章基础上参考编辑Hadoop配置APIhadoop中的组件都是通过Hadoop自己的配置API配置的，一个Configuration类的实例代表了Hadoop集群的配置。配置类似于Map，由属性及值组成。属性为String类型，值则可以为java基本类型、其他有用类型(例如String、Class、java.io.File)及String集合。API重要属...

2018-11-13 16:24:54 716

原创 HDFS基于文件的数据结构

存在原因Hadoop处理少量大文件时效率较高，但处理大量小文件是效率较低，因此设计了以下两种文件模式容器用于将大量小文件组织起来统一存储。SequenceFile文件文件的基本格式。文件的基本格式是一种键值对文件记录。文件的键、值对所代表的类必须支持序列化及反序列化Hadoop预定义了一些class，他们已经直接或间接实现了Writable接口(序列化接口)。例如：Text ...

2018-11-13 16:23:24 2366

原创 Hive表的增删改、混合操作

增 Hive表增加数据有两种方式（目前我知道的），分别为load及传统意义上的insert。通过load加载数据命令格式 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] ...

2018-09-06 17:34:32 4338

原创 Hive 数据类型

Hive基本数据类型1. 数值型将数据类型总结为如下表格数据类型所占字节 TINYINT 1字节（-128 to 127），Y SMALLINT 2字节（-32,768 to 32,767），S INT/INTEGER 4字节（-2,147,483,648 to 2,147,483,647） BIGINT 8字节...

2018-09-04 17:50:27 366

原创 Hive表的定义，删除、修改

Hive表的定义、删除创建表只涉及简单的建表，不涉及分区等复杂操作。1. 建表语句CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) [(col_name da...

2018-09-04 17:19:46 4346

原创 python yield学习

yield 在 Python 中被称之为 generator（生成器），yield常用于生成一个迭代器。列表与迭代器假设我们要实现一个函数，它需要返回一个斐波那契数列的前n个数，平常我们会写作如下def fb(max): n, a, b = 0, 0, 1 res = [] while n < max: res.append(b)

2017-09-17 10:45:13 294

敲烂键盘为止