鲍礼彬的CSDN博客 ~_~

不会修电脑的程序员不是好程序员~ https://github.com/baolibin (求Follow) ，女朋友的CSDN博客地址：https://blog.csdn.net/yangfengling1023

12月 11月 10月 09月 08月 06月 05月 04月 03月 02月 01月

原创 hadoop的FileSplit简单使用

hadoop的FileSplit简单使用FileSplit类继承关系：FileSplit类中的属性和方法：作业输入：hadoop@hadoop:/home/hadoop/blb$ hdfs dfs -text /user/hadoop/libin/input/inputpath1.txthadoop aspark ahive

2016-03-30 09:57:45 8231

原创 hadoop的Context简单使用

hadoop的Context简单使用作业输入：hadoop@hadoop:/home/hadoop/blb$ hdfs dfs -text /user/hadoop/libin/input/inputpath1.txthadoop aspark ahive ahbase atachyon astorm aredis ahadoop@hadoo

2016-03-29 18:07:30 5905

转载 Hadoop contrib介绍

Hadoop Contrib是Hadoop代码中第三方公司贡献的工具包，一般作为Hadoop kernel的扩展功能，它包含多个非常有用的扩展包，本文以Hadoop 1.0为例对Hadoop Contrib中的各个工具包进行介绍。【Gridmix2】Hadoop Gridmix2是针对hadoop系统的基准测试程序。它具备评测大规模数据处理系统所需的各个功能模块，包括：产生

2016-03-23 10:52:12 1686

原创 Hadoop的ChainMapper/ChainReducer

Hadoop的ChainMapper/ChainReducerChainMapper/ChainReducer主要为了解决线性链式Mapper而提出的。 ChainMapper:/**The ChainMapper class allows to use multiple Mapper classes within a single

2016-03-17 18:09:59 1163 1

原创 11-1、Spark通信模块

8、Spark通信模块8.1、通信框架AKKA先介绍一下RPC：RCP(Remote Produce Call)是远程过程调用，基于C/S模型调用。过程大致可以理解为本地分布式对象向主机发请求，不用自己编写底层通信本机。通过向服务器发送请求，服务器对象接受参数后，进行处理，再把处理后的结构发送回客户端。RPC不支持对象通信，支持对象传输。 Spark在模块通信使用的是A

2016-03-12 20:19:38 1693

原创 10-1、Spark I/O机制

7、Spark I/O机制7.1、序列化Spark通过集中方式实现进程通信，包括Actor的消息模式、Java NIO和Netty的OIO。序列化是将对象转换为字节流，本质上可以理解为将链表存储的非连续空间的数据存储转化为连续空间存储的数组中。这样就可以将数据进行流式传输或者块管理。序列化主要有以下两个目的：进程间通信：不同节点之间进行数据传输；数据持久化存储到

2016-03-12 20:15:51 1067

原创 9-1、Spark-Storage

6、StorageStorage模块负责管理Spark计算过程中产生的数据，包括基于Disk的和基于Memory的。用户编程时候cache将数据持久化，持久化的动作都是由Storage模块完成的，包括Shuffle过程中的数据，都是Storage模块管理的。RDD实现的是用户逻辑，而Storage管理用户的数据。在Driver端和Executor端，都会有Storage模块。

2016-03-12 20:13:18 649

原创 8-1、Spark-Shuffle机制

5、Shuffle机制Spark的Shuffle是把一组无规则的数据尽量转换为一组具有一定规则的数据，Spark的Shuffle和MapReduce的Shuffle思想相同，在实现细节和优化方式上不同。Shuffle就是包裹在各种需要重分区的算子之下的一个对数据进行重新组合的过程。 5.1、Shuffle阶段Shuffle分为两个阶段：Shuffle Write和Shuffle

2016-03-12 18:18:37 906

原创 7-1、Spark-Scheduler

4、SchedulerScheduler（任务调度）模块是Spark Core的核心模块之一。Spark对于DAG(Directed Acyclic Graph，有向无环图)的实现以及不同执行阶段的划分和任务的提交执行。任务调度，即组成应用的多个Job之间如何分配计算资源。 4.1、整体模块概述4.1.1、DAGScheduler和TaskScheduler任务调度模块

2016-03-12 18:04:17 796

原创 6-1、Spark RDD

3、RDD与Hadoop不同，Spark一开始就瞄准性能，将数据放在内存，在内存中计算。用户将重复利用的数据缓存在内存中，提高下次的计算效率，因此Spark尤其适合迭代型和交互型任务。3.1、RDD为何物RDD(resilient distributed dataset，RDD)。RDD提供了一种高度受限的共享内存，RDD是只读的、分区记录的集合。RDD是Spark的核心数

2016-03-12 15:31:05 1406 1

原创 5-1、Spark环境搭建

2、Spark环境搭建2.1、官网下载Spark官网地址：http://spark.apache.org/ 下载后如下： Linux上安装部署SparkJdkScalaSSHHadoopSpark2.2、安装模式Local模式(学习、测试之用) Standalone模式（内置的资源管理和调度框架）Mesos（Apache）Ya

2016-03-12 15:15:34 1780

原创 4-1、Spark简介

1、Spark简介1.1、Spark为何物？Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了大数据环境下处理的实时性，同时保证了高容错性和高伸缩性。Spark于2009年诞生于加州大学伯克利分校AMPLab。现在已经成为Apache软件基金会旗下的顶级开源项目。 Spark历史与发展：2009年：Spark诞生于AMPLab;2010年：

2016-03-12 10:53:27 1221

原创 Hadoop的Partitioner

PartitionerHashPartitioner、TotalOrderPartitioner、KeyFieldBasedPartitioner、BinaryPartitionerpublic abstract class Partitioner { public abstract int getPartition(KEY key, VALUE value, int numPa

2016-03-04 12:10:10 1847

struts1.3.10all.zip

使用此包和马士兵老师讲课所用的包一致，方便web 人员下载

2014-08-07

HTML、CSS、JavaScript网页制作从入门到精通sample

HTML、CSS、JavaScript网页制作从入门到精通sample 是网页制作基础，很好的一本书

2014-06-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人