自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (15)
  • 论坛 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 Falcon(一)——数据集管理和数据处理平台

目的:使终端用户在面向Hadoop集群进行数据集处理和数据集管理更加容易。原因在Hadoop环境中,在各种数据集和处理关系之间建立关系在集群中进行数据集管理例如数据集声明周期、数据集复制等抓取数据集或者处理过程的血统信息。允许本地数据和其他任何地方的集群进行数据整合。与metastore和catalog进行整合,例如:Hive和HcatalogEasy to onboard new wo

2017-02-26 23:08:27 5199 2

原创 Java NIO 系列教程(一)

概述Java NIO是面向缓冲区的,基于通道的IO操作。缓冲区与通道的基本原理叙述通道:类似于生活中的铁路,只用于连接,并没有数据的传输。缓冲区:类似于火车,可以双向的传递数据,比如说:运城到太原的火车,在运城上乘客后(乘客数量小于火车容量)(可以认为就是在写数据),就可以往太原出发,(当然也可以在中途进行上下车)在太原后,乘客需要下车(类似于读数据),重要的是这个火车在太原可以再次进行装人(写数据

2017-02-28 20:49:12 337

原创 远程windows用eclipse运行wordcount程序

环境:集群安装在虚拟机的linux的Centos6.5上 在windows上的eclipse运行eclipse过程记录搭建eclipse的hadoop开发环境下载hadoop对应版本的hadoop-eclipse-plugin-2.6.0.jar将相应的插件包放在Eclipse的插件目录中:D:\eclipse\plugins打开eclipse进入进入windows-preferences,

2017-02-26 23:26:01 510 2

原创 Hadoop中WordCount程序详解

Mappackage com.test.dx;/*如何给eclipse的main函数传递参数 * run as--> run configures -->Arguments */public class WordCount extends Configured implements Tool { static int mapnum = 0; public static int re

2017-02-26 23:25:11 255

原创 Hadoop通信协议——RPC原理详解

RPC 功能目标RPC 的主要功能目标是让构建分布式计算(应用)更容易,在提供强大的远程调用能力时不损失本地调用的语义简洁性。 为实现该目标,RPC 框架需提供一种透明调用机制让使用者不必显式的区分本地调用和远程调用。 下面我们将具体细化 stub 结构的实现。 RPC 调用分类RPC 调用分以下两种:同步调用客户方等待调用执行完成并返回结果。异步调用客户方调用后不用等待执行结果返回,但依然可以

2017-02-26 23:24:41 683

原创 Hadoop浅解海量数据处理算法——Bloom Filter

简介Bloom-Filter,即布隆过滤器。用于检索一个元素是否存在于一个聚合中。Bloom-Fileter是一种空间效率极高的随机数据结构,它利用位数组很简洁的表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom-Filter有可能出现错误判断,但不会漏掉判断(经过Bloom-Filter判断不存在集合中的,那肯定不存在;但是判断元素存在集合中,

2017-02-26 23:22:33 376

原创 Hadoop浅解SnapShots

快照HDFS快照是一个只读的基于时间点文件系统拷贝。快照可以将失效的集群回滚到之前的一个正常的时间点上。总览HDFS 快照是一种只读的特定时间点的文件系统的复制,快照可以对目录或者整个文件系统进行。作用防止用户的错误操作:管理员可以通过以滚动的方式周期性设置一个只读的快照,这样就可以在文件系统上有若干份只读快照。如果用户意外地删除了一个文件,就可以使用包含该文件的最新只读快照来进行回复。备份:管

2017-02-26 23:20:12 369

原创 Hadoop浅解partitioner

Partitioner分区类的作用是什么?在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需要把同一省份的数据放到一个文件中;按照性别划分的话,需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么,如果要得到多个文件,意味着有同样数量的Reducer任务在运行。Reducer任务的数据来自于Mapper任务,也就

2017-02-26 23:18:07 166

原创 Hadoop浅解HDFS租约处理

问题提出在HDFS中可能同时有多个客户端在同一时刻写文件,如果不进行控制的话,有可能多个客户端会并发的写一个文件,所以需要进行控制,一般的想法是用一个互斥锁,在某一时刻只有一个客户端进行写操作,但是在分布式系统中有如下问题:每次写文件前,客户端需要向master获取锁情况,他们之间的网络通讯太频繁。当某个客户端获取锁之后和master失去联系,这个锁一直被该客户端占据,master和其他客户端不

2017-02-26 23:17:42 1641

翻译 Hadoop浅解Centralized Cache Management(集中式缓存管理)

HDFS集中式缓存管理概观HDFS的集中化缓存管理是一个明确的缓存机制,它可以将用户指定的HDFS路径进行缓存。NameNode会和保存着所需快数据的所有DataNode进行通信,并指导他们把块数据缓存在off-heap缓存中。HDFS上的集中式缓存管理具有明显的优势: 1. 明确的锁定可以阻止频繁使用的数据被从内存中清除。当数据集的大小超过了主内存大小(这种情况对于许多HDFS负载都是司空见惯的

2017-02-26 23:16:58 460

原创 Hadoop浅解Combiner

这篇博客之前好久写的,现在完善一下:一、Combiner的出现背景我们可以发现在Hadoop运行Wordcount的过程中会出现如下记录:Combine input records=0Combine output records=0其中有两个计数器: Combine output records 和 Combine input records ,他们的计数都是0,这是因为我们在...

2017-02-26 23:15:08 342

原创 Falcon(三)——Falcon数据导入和导出

综述Falcon提供了周期性的将源数据从外部数据库(数据库,drop boxes etc)导入到Hadoop上以及将讲过Hadoop运算的数据导出到外部的数据库。在至今所有的版本中,Falcon仅仅支持关系型数据库(Mysql,Oracle等)讲过JDBC作为外部的数据源。将来的版本可能增加支持其他类型的数据库。先决条件要将数据导入和数据导出需要满足以下的条件: - Sqoop 1.4.6+ -

2017-02-26 23:12:28 1936

原创 Falcon(二)——架构详解

架构介绍Falcon是一个面向Hadoop的数据集和处理过程的管理平台。Falcon本质上是通过数据处理引擎将数据集和处理过程的配置文件转化为重复的业务处理流程。Falcon并不做任何繁重的工作,所有的过程和处理流管理都是由工作流调度器来完成的。Falcon所做的就是维持实体之间的依赖关系。Falcon给开发人员提供便捷。架构的整体框架调度器Falcon选择Oozie作为默认的调度器。当然Falco

2017-02-26 23:11:09 5043

jdk1.6rpm安装包(linux)

安装CM过程提示出 jdk x86_64 2000:1.6.0_31-fcs 没有安装源。

2018-09-09

protoc2.5版本,直接放在system32下即可

保证可以运行,将文件解压后,直接放置在C盘下的System32下即可运行,或者对环境变量进行配置。

2018-07-19

Navicat Premium 12 破解补丁

Navicat Premium 12 破解补丁,可以将其中的文件拷贝至 Navicat Premium安装文件夹即可!

2018-04-15

hadoop-2.7.0-winutils.zip

解决运行Spark、Hadoop程序出现:Caused by: java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io/FileDescriptor;问题

2018-04-11

Maven实战.pdf

Maven实战.pdf

2017-06-19

大话数据结构 .mobi

大话数据结构 .mobi

2017-06-19

IntelliJ IDEA使用教程

IntelliJ IDEA 使用教程 - v1.0.pdf

2017-06-19

Hadoop权威指南(中文版-带目录索引).pdf

Hadoop权威指南(中文版-带目录索引).pdf

2017-06-19

学习VI和VIM编辑器第7版中文

学习VI和VIM编辑器第7版中文

2017-06-19

Sqoop-sqlserver-hdfs.rar

其中包含Sqoop将SqlServer文件导入HDFS文件的所有jar包

2016-11-05

Java设计模式之策略模式

Java设计模式之策略模式的详细描述

2016-10-29

Hadoop的Codec(LZO代码库)

LZO代码库拥有GPL许可,因而可能没有包含在Apache的发型版本中

2016-10-28

zookeeper管理员指南(入门宝典)

大数据入门必备书籍

2016-09-13

zookeeper管理员指南

是入门Zookeeper管理员的必备资料

2016-09-13

hive编程指南 PDF 中文高清版

为Hive编程指南PDF中文高清版

2016-09-13

使用遗传算法解决八数码问题的Java实现

发表于 2017-05-21 最后回复 2018-04-29

falcon调用Hive脚本问题

发表于 2016-09-09 最后回复 2017-05-21

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除