2016年07月_龙虾三少

08月 07月 06月 05月 04月 03月 02月 01月

转载 Spark RDD API详解(一) Map和Reduce

RDD是什么？RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分，将介绍S

2016-07-26 20:53:01 440

转载 Sqoop导入关系数据库到Hive

Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具。本文以 mysql 数据库为例，实现关系数据库导入到 hdfs 和 hive。1. 安装 Sqoop使用 rpm 安装即可。yum install sqoop sqoop-metastore -y安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录。这里

2016-07-21 11:29:57 579

转载 Hadoop源码解析之: TextInputFormat如何处理跨split的行

我们知道Hadoop将数据给到map进行处理前会使用InputFormat对数据进行两方面的预处理：对输入数据进行切分，生成一组split，一个split会分发给一个mapper进行处理。针对每个split，再创建一个RecordReader读取Split内的数据，并按照的形式组织成一条record传给map函数进行处理。最常见的FormatInput就是TextInput

2016-07-19 16:33:29 584

转载 Hadoop MapReduce执行过程详解

分析MapReduce执行过程 MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任务会接收Mapper任务输出的数据，作为自己的输入数据，调用自己的方法，最后输出到HDFS的文件中。整个流程如图：Mapper任务的执行过程详解每个Mapper任务是一个java进程，它会读取HDFS中

2016-07-19 16:32:29 810

转载 Hadoop Yarn 框架原理及运作机制

1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配，而ApplicationMaster负责单个应用程序的管理。

2016-07-19 10:39:09 401

COM原理与应用

COM本质论，一款学习COM的必备书籍，书中的许多内容一看就懂，非常适合学习COM的学者

2012-11-05

用于广播发送程序的源码

用于广播发送程序的源码，可以根据需求改变程序中特殊部分的要求

2010-03-07

用于广播报文接收程序的源码

用于广播接收的局域网应用程序，可以根据需求跟该特定的程序部分

2010-03-07

FONT-GONFIGURE

REDHAT编译QT时出错，因为缺少了这个包的解压安装

2010-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人