自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

maixia24的专栏

https://github.com/xiaofateng/

  • 博客(11)
  • 资源 (16)
  • 收藏
  • 关注

原创 Hadoop源码分析DataNode类

DataNode类源码分析DataNode 类存储,DFS部署所需要的blocks。一个部署需要一个或多个DataNodes。每一个DataNode和一个单独的NameNode定期的交流。DataNode同样也不时地,和客户端代码和其它的DataNodes交流。DataNodes存储一些命名的blocks。DataNode允许客户端代码来读这些块,或者写进新的block

2013-07-27 00:27:17 1224

原创 第11章Pig

SchemasPig中的一个关系,可能有一个相关的模式,会给关系的字段名字和类型。我们已经看了,LOAD中的AS语句是怎么被用来,给一个关系添加模式的。grunt> records = LOAD 'input/ncdc/micro-tab/sample.txt'>> AS (year:int, temperature:int, quality:int);grunt> DESCRIB

2013-07-19 18:32:21 1164

原创 第11章Pig

Pig LatinThe command to list the files in a Hadoop filesystem is another example of a statement:ls /这部分介绍Pig Latin编程语言的语法、语句信息。本部分不提供对Pig Latin语言的完整的讲解,但是,这部分对于你理解Pig Latin的结构是足够的了。结构一个Pig

2013-07-19 18:31:19 1029

原创 第11章Pig

一个例子让我们看下,用Pig Latin写一个程序计算几年中气温最大值(就像我们第二章做的事情那样),这样的简单例子。完整的程序只有几行:-- max_temp.pig: Finds the maximum temperature by yearrecords = LOAD 'input/ncdc/micro-tab/sample.txt'AS (year:chararray, t

2013-07-19 18:29:44 1127

原创 第11章Pig

安装和运行PigPig是作为一个客户端程序运行的,即使你想在Hadoop集群上面运行它,你也不需要安装额外的东西。Pig启动jobs,与HDFS(或其它的Hadoop文件系统)交流,这些都是在你的机器上进行的。Pig的安装很简单,你需要java 6(windows 上还需要Cygwin)。从http://hadoop.apache.org/pig/releases.html,下载稳

2013-07-19 18:26:39 35385

原创 第11章Pig

Pig提高了处理大数据的抽象能力。Mapreduce允许程序员指明map函数,然后是reduce函数,但是,当你当你把你的数据加工成这种模式的时候,就需要很多Mapreduce阶段,这将会是一个挑战。有了Pig之后,数据结构就更丰富了,典型的多值和嵌套;你可以对数据进行的变换也更加强大了,包括,joins,等,这些可不是Mapreduce微弱的心脏(意即功能很强大)。Pig由两部分组成:

2013-07-19 18:25:13 935

原创 Sqoop generated code浅析

最近在研究Sqoop,根据hadoop definitive guide 书籍,写下自己的理解,如有不当之处,请指正。先说,Sqoop generated code的两种生成方式:1、使用Sqoop导入命令,会自动生成,它的生成的时间是在 导入的过程中,而不是导入完成之后。2、使用如下命令%sqoop codegen --connect jdbc:mysql:/

2013-07-09 23:56:51 1102

原创 Sqoop导入数据文本格式和Sequence File的比较

Sqoop可以导入数据到一些不同的文件格式。文本格式:文本格式(默认格式)提供一种便于人阅读的数据格式,这种格式平台无关性,是最简单的结构。但是,这种文件格式,不可以处理二进制字段(例如数据库中列中的可变二进制类型字段);不能区分出空值和包含null的字符串。SequenceFile:解决了文本格式的缺点。序列化文件提供了,更精确的导入数据的替代方法的可能性。它

2013-07-09 14:20:05 5015 1

原创 第15章Sqoop(3)

处理导入的数据一旦数据导入到了HDFS中,现在就应该由自定义的Mapreduce处理这些数据了。文本格式导入的数据,可以很容易的和Hadoop流,被脚本语言运行,或者,和默认的TextInputFormat运行(翻译不恰当这里,原文Text-based imports can be easily used in scripts run with HadoopStreaming or in 

2013-07-08 00:30:38 5570

原创 第十五章Sqoop(2)

生成的代码除了,从数据库中的内容写到HDFS,Sqoop还提供了写向当前本地目录的生成的Java源文件(widgest.java)。(运行完Sqoop导入命令以后,你可以通过 ls widgest.java 查看)代码生成是Sqoop导入过程的一个必要部分;你会在483页,数据导入:深入学习,在导入HDFS前,Sqoop用生成的代码来反序列化数据库中的特定的表数据。生成的类,有能力

2013-07-08 00:21:48 6622

原创 第十五章 Sqoop(1)

Hadoop平台的一个强大的地方是它处理不同格式数据的能力。HDFS能够稳定的存储日志和其它很多种来源的数据,并且Mapreduce程序可以处理各种各样的数据格式,然后抽取相关的数据并且组合各种各样的数据成为一个有用的结果。但是,和HDFS之外的存储仓库交互数据的时候,Mapreduce程序需要使用外部的API来得到这些数据。通常,有价值的数据存储在RDBMS中。Sqoop是一个允许用户从

2013-07-04 18:30:40 1724

(12)使用数据分区优化join

数据分区 设计RDD的Partitioner

2015-06-10

(10)KeyValue对RDDs(二)

(10)KeyValue对RDDs(二)

2015-06-10

(9)KeyValue对RDDs(一)

KeyValue对RDDs介绍 创建KeyValue对RDDs KeyValue对RDDs的操作

2015-06-10

(8)RDDs的特性

RDDs的血统关系图 RDDs的延迟计算 RDD.persist()

2015-06-10

(7)RDDs基本操作之Actions

RDDs基本操作之Actions

2015-06-10

(6)RDDs基本操作之Transformations

Transformations介绍 逐元素transformations 集合运算

2015-06-10

(5)RDDs介绍

RDDs介绍 RDDs的创建方法 Scala的基础知识

2015-06-10

(3)Spark开发环境搭建

使用Scala+IntelliJ IDEA+Sbt搭建开发环境

2015-06-10

(2)Spark基础知识

Spark下载 Spark的Shells Spark的核心概念

2015-06-10

(1)Spark简介

从bigdatastudy.cn下载的讲义

2015-06-10

perl-base_5.14.2-6ubuntu2.4_amd64

mysql安装时候遇到依赖问题,这是需要的包。 详情见: http://blog.csdn.net/maixia24/article/details/43410093

2015-02-02

hadoop-eclipse-plugin-1.2.1.jar

hadoop eclipse 插件,编译环境 hadoop1.2.1+ eclipse 版本 Version: Kepler Service Release 1 在我的ubuntu下亲测可用

2013-10-27

advanced rest client json文件

advanced rest client 需要加载的json文件

2013-04-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除