2017年02月_NobiGo

12月 10月 09月 08月 06月 05月 04月 03月 02月

原创 Java NIO 系列教程（一）

概述Java NIO是面向缓冲区的，基于通道的IO操作。缓冲区与通道的基本原理叙述通道：类似于生活中的铁路，只用于连接，并没有数据的传输。缓冲区：类似于火车，可以双向的传递数据，比如说：运城到太原的火车，在运城上乘客后（乘客数量小于火车容量）（可以认为就是在写数据），就可以往太原出发，（当然也可以在中途进行上下车）在太原后，乘客需要下车（类似于读数据），重要的是这个火车在太原可以再次进行装人（写数据

2017-02-28 20:49:12 477

原创远程windows用eclipse运行wordcount程序

环境：集群安装在虚拟机的linux的Centos6.5上在windows上的eclipse运行eclipse过程记录搭建eclipse的hadoop开发环境下载hadoop对应版本的hadoop-eclipse-plugin-2.6.0.jar将相应的插件包放在Eclipse的插件目录中：D:\eclipse\plugins打开eclipse进入进入windows-preferences，

2017-02-26 23:26:01 677 2

原创 Hadoop中WordCount程序详解

Mappackage com.test.dx;/*如何给eclipse的main函数传递参数 * run as--> run configures -->Arguments */public class WordCount extends Configured implements Tool { static int mapnum = 0; public static int re

2017-02-26 23:25:11 511

原创 Hadoop通信协议——RPC原理详解

RPC 功能目标RPC 的主要功能目标是让构建分布式计算（应用）更容易，在提供强大的远程调用能力时不损失本地调用的语义简洁性。为实现该目标，RPC 框架需提供一种透明调用机制让使用者不必显式的区分本地调用和远程调用。下面我们将具体细化 stub 结构的实现。 RPC 调用分类RPC 调用分以下两种：同步调用客户方等待调用执行完成并返回结果。异步调用客户方调用后不用等待执行结果返回，但依然可以

2017-02-26 23:24:41 1168

原创 Hadoop浅解海量数据处理算法——Bloom Filter

简介Bloom-Filter,即布隆过滤器。用于检索一个元素是否存在于一个聚合中。Bloom-Fileter是一种空间效率极高的随机数据结构，它利用位数组很简洁的表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom-Filter有可能出现错误判断，但不会漏掉判断（经过Bloom-Filter判断不存在集合中的，那肯定不存在;但是判断元素存在集合中，

2017-02-26 23:22:33 530

原创 Hadoop浅解SnapShots

快照HDFS快照是一个只读的基于时间点文件系统拷贝。快照可以将失效的集群回滚到之前的一个正常的时间点上。总览HDFS 快照是一种只读的特定时间点的文件系统的复制，快照可以对目录或者整个文件系统进行。作用防止用户的错误操作：管理员可以通过以滚动的方式周期性设置一个只读的快照，这样就可以在文件系统上有若干份只读快照。如果用户意外地删除了一个文件，就可以使用包含该文件的最新只读快照来进行回复。备份：管

2017-02-26 23:20:12 764

原创 Hadoop浅解partitioner

Partitioner分区类的作用是什么？在进行MapReduce计算时，有时候需要把最终的输出数据分到不同的文件中，比如按照省份划分的话，需要把同一省份的数据放到一个文件中；按照性别划分的话，需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么，如果要得到多个文件，意味着有同样数量的Reducer任务在运行。Reducer任务的数据来自于Mapper任务，也就

2017-02-26 23:18:07 280

原创 Hadoop浅解HDFS租约处理

问题提出在HDFS中可能同时有多个客户端在同一时刻写文件，如果不进行控制的话，有可能多个客户端会并发的写一个文件，所以需要进行控制，一般的想法是用一个互斥锁，在某一时刻只有一个客户端进行写操作，但是在分布式系统中有如下问题：每次写文件前，客户端需要向master获取锁情况，他们之间的网络通讯太频繁。当某个客户端获取锁之后和master失去联系，这个锁一直被该客户端占据，master和其他客户端不

2017-02-26 23:17:42 1995

翻译 Hadoop浅解Centralized Cache Management（集中式缓存管理）

HDFS集中式缓存管理概观HDFS的集中化缓存管理是一个明确的缓存机制，它可以将用户指定的HDFS路径进行缓存。NameNode会和保存着所需快数据的所有DataNode进行通信，并指导他们把块数据缓存在off-heap缓存中。HDFS上的集中式缓存管理具有明显的优势： 1. 明确的锁定可以阻止频繁使用的数据被从内存中清除。当数据集的大小超过了主内存大小（这种情况对于许多HDFS负载都是司空见惯的

2017-02-26 23:16:58 636

原创 Hadoop浅解Combiner

这篇博客之前好久写的，现在完善一下：一、Combiner的出现背景我们可以发现在Hadoop运行Wordcount的过程中会出现如下记录：Combine input records=0Combine output records=0其中有两个计数器： Combine output records 和 Combine input records ，他们的计数都是0，这是因为我们在...

2017-02-26 23:15:08 624

原创 Falcon（三）——Falcon数据导入和导出

综述Falcon提供了周期性的将源数据从外部数据库（数据库，drop boxes etc）导入到Hadoop上以及将讲过Hadoop运算的数据导出到外部的数据库。在至今所有的版本中，Falcon仅仅支持关系型数据库（Mysql，Oracle等）讲过JDBC作为外部的数据源。将来的版本可能增加支持其他类型的数据库。先决条件要将数据导入和数据导出需要满足以下的条件： - Sqoop 1.4.6+ -

2017-02-26 23:12:28 2648

原创 Falcon（二）——架构详解

架构介绍Falcon是一个面向Hadoop的数据集和处理过程的管理平台。Falcon本质上是通过数据处理引擎将数据集和处理过程的配置文件转化为重复的业务处理流程。Falcon并不做任何繁重的工作，所有的过程和处理流管理都是由工作流调度器来完成的。Falcon所做的就是维持实体之间的依赖关系。Falcon给开发人员提供便捷。架构的整体框架调度器Falcon选择Oozie作为默认的调度器。当然Falco

2017-02-26 23:11:09 7071

原创 Falcon（一）——数据集管理和数据处理平台

目的：使终端用户在面向Hadoop集群进行数据集处理和数据集管理更加容易。原因在Hadoop环境中，在各种数据集和处理关系之间建立关系在集群中进行数据集管理例如数据集声明周期、数据集复制等抓取数据集或者处理过程的血统信息。允许本地数据和其他任何地方的集群进行数据整合。与metastore和catalog进行整合，例如：Hive和HcatalogEasy to onboard new wo

2017-02-26 23:08:27 6257 2

newimproved-SQL-2016.pdf

SQL-2016 相对于SQL-2003的提升文件说明

2022-01-13

ISO-2003-SQL.zip

ISO-2003-SQL

2022-01-13

ISO-2016-SQL.zip

2016年12月14日，ISO/IEC发布了最新版本的数据库语言SQL标准（ISO/IEC 9075:2016）。从此，它替代了之前的ISO/IEC 9075:2011版本。最新的标准分为9个部分： ISO/IEC 9075-1 信息技术 – 数据库语言 – SQL – 第1部分：框架（SQL/框架） ISO/IEC 9075-2 信息技术 – 数据库语言 – SQL – 第2部分：基本原则（SQL/基本原则） ISO/IEC 9075-3 信息技术 – 数据库语言 – SQL – 第3部分：调用级接口（SQL/CLI） ISO/IEC 9075-4 信息技术 – 数据库语言 – SQL – 第4部分：持久存储模块（SQL/PSM） ISO/IEC 9075-9 信息技术 – 数据库语言 – SQL – 第9部分：外部数据管理（SQL/MED） ISO/IEC 9075-10 信息技术 – 数据库语言 – SQL – 第10部分：对象语言绑定（SQL/OLB） ISO/IEC 9075-11 信息技术 – 数据库语言 – SQL – 第11部分：信息与定义概要（SQL/Schemata） ISO/IEC 9075-13 信息技术 – 数据库语言 – SQL – 第13部分：使用Java编程语言的SQL程序与类型（SQL/JRT） ISO/IEC 9075-14 信息技术 – 数据库语言 – SQL – 第14部分：XML相关规范（SQL/XML）

2021-11-16

TA关注的人

Nobigo

原创 Java NIO 系列教程（一）

原创远程windows用eclipse运行wordcount程序

原创 Hadoop中WordCount程序详解

原创 Hadoop通信协议——RPC原理详解

原创 Hadoop浅解海量数据处理算法——Bloom Filter

原创 Hadoop浅解SnapShots

原创 Hadoop浅解partitioner

原创 Hadoop浅解HDFS租约处理

翻译 Hadoop浅解Centralized Cache Management（集中式缓存管理）

原创 Hadoop浅解Combiner

原创 Falcon（三）——Falcon数据导入和导出

原创 Falcon（二）——架构详解

原创 Falcon（一）——数据集管理和数据处理平台

newimproved-SQL-2016.pdf

ISO-2003-SQL.zip

ISO-2016-SQL.zip

jdk1.6rpm安装包（linux）

protoc2.5版本，直接放在system32下即可

hadoop-2.7.0-winutils.zip

Maven实战.pdf

Hadoop权威指南(中文版-带目录索引).pdf

Sqoop-sqlserver-hdfs.rar

Java设计模式之策略模式

Hadoop的Codec（LZO代码库）

zookeeper管理员指南

linux Shell 得到当前路径的问题