自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

梓纾的专栏

分布式、大数据技术

  • 博客(15)
  • 收藏
  • 关注

原创 Spark入门示例

pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/ma

2016-10-30 22:24:49 2478

原创 《Hadoop 2.X HDFS源码剖析》读书笔记(NameNode)

1. 文件系统目录树FSDirectoryHDFS文件系统的命名空间是以“/”为根的整个目录树,是通过FSDirectory类来管理的。FSNamesystem也提供了管理目录树结构的方法,当FSNamesystem中的方法也是调用FSDirectory类的实现,FSNamesystem在FSDirectory类方法的基础上添加了editlog日志记录的功能。HDFS引入FSDirectory是为了

2016-10-30 21:40:22 2038 4

原创 《Python基础教程》学习笔记(6-7抽象)

6. 抽象6.1 函数使用def定义函数def fibs(num): result = [0, 1] for i in range(num - 2): result.append(result[-2] + result[-1]) return resultprint fibs(10)6.1.1 记录函数如果在函数的开头写下字符串,它就会作为函数的一部分进行存储

2016-10-30 21:38:02 464

原创 《Python基础教程》学习笔记(3-5字符串、字典与语句)

3. 使用字符串3.1 基本字符串操作所有标准的序列操作(索引、分片、乘法、判断成员资格、求长度、取最小值和最大值)对字符串同样适用。 字符串是不可变的 3.2 字符串格式化使用字符串格式化操作符,即百分号%来实现。 如果字符串中包含百分号,必须使用%%转义 如果右操作符是元组的话,则其中的每一个元素都会被单独格式化>>> '%s plus %s equals %s' % (1,2,3)'

2016-10-30 21:37:32 656 1

原创 《Python基础教程》学习笔记(1-2基础、列表与元组)

1. 基础知识1.1 示例#!/usr/bin/python# -*- coding: utf-8 -*-# 第一行表明这是python脚本# 第二行使脚本支持中文print "数字和表达式"# 除法print 10 / 3# 求余print 10 % 3# 浮点运算print 10 / 3.# 幂运算print 2 ** 3# 内建函数print 10 + pow(2, 3)

2016-10-30 21:36:37 656

原创 Flume、Kafka与Storm实现日志处理

1. ZooKeeper安装参考2. Kafka2.1 解压安装# 确保scala已经安装好,本文安装的是2.11.7tar -xf kafka_2.11-0.9.0.1.tgzcd kafka_2.11-0.9.0.1mkdir logsvim ~/.bash_profileexport KAFKA_HOME=/home/zkpk/kafka_2.11-0.9.0.1export PATH

2016-10-19 21:47:25 4959 2

转载 Storm简介

1. 架构1.1 简介分布式 && 实时 计算系统。storm对于实时计算的意义类似于hadoop对于批处理的意义。storm的流式处理计算模式保证了任务能够只进行一次初始化,就能够持续计算,同时使用了ZeroMQ(Netty)作为底层消息队列,有效地提高了整体架构的数据处理效率,避免了Hadoop的瓶颈。Storm的适用场景:流数据处理,Storm可以用来处理源源不断流进来的消息,处理之后将结果

2016-10-14 12:02:28 483

原创 MapReduce学习笔记之数据连接(六)

1. Map侧连接Map端join是指数据到达map处理函数之前进行合并的,效率要远远高于Reduce端join,因为Reduce端join是把所有的数据都经过Shuffle,非常消耗资源。 注意:在Map端join操作中,我们往往将较小的表添加到内存中,因为内存的资源是很宝贵的,这也说明了另外一个问题,那就是如果表的数据量都非常大则不适合使用Map端join。 1.1 基本思路需要join的

2016-10-13 15:37:42 1103

原创 MapReduce学习笔记之输出与作业的计数器(五)

1. MapReduce的输出输出依赖于作业中Reduce任务的数量,下面是一些优化建议:压缩输出,以节省存储空间,同时也提升HDFS写入吞吐量;避免写入带外端文件(out-of-band side file)作为Reduce任务的输出。根据作业输出文件的消费者的需求,可以分割的压缩技术或许适合;以较大块容量设置,写入较大的HDFS文件,有助于减少Map任务数。2. 任务的推测执行Stra

2016-10-13 15:37:02 896

原创 MapReduce学习笔记之Reduce任务(四)

1. Reduce任务Reduce任务是一个数据聚合的步骤。数量默认为1,而使用过多的Reduce任务则意味着复杂的shuffle,并使输出文件的数量激增。mapreduce.job.reduces属性设置reduce数量,也可以通过编程的方式,调用Job对象的setNumReduceTasks()方法来设置。一个节点Reduce任务数量上限由mapreduce.tasktracker.reduce

2016-10-13 15:35:38 7247

原创 MapReduce学习笔记之Map任务(三)

本节所有属性会被mapred-default.xml或mapred-site.xml文件中设定的该属性值覆盖。 1. dfs.blocksize属性HDFS文件的块默认容量可以被配置文件(hdfs-site.xml)覆盖。某些情况下,Map任务可能只需要几秒时间就可以处理一个块,所以,最好让Map任务处理更大的块容量。通过以下方法达到此目的:增加参数mapreduce.input.fileinp

2016-10-13 15:34:10 6319 1

原创 MapReduce学习笔记之输入(二)

类图 1. InputFormat类MapReduce作业的输入数据的规格是通过InputFormat类及其子类给出的。有以下几项主要功能:输入数据的有效性检测。将输入数据切分为逻辑块(InputSplit),并把他们分配给对应的Map任务。实例化一个能在每个InputSplit类上工作的RecordReader对象,并以键-值对方式生成数据,这些K-V对将由我们写的Mapper方法处理。

2016-10-13 15:30:00 2729

原创 MapReduce学习笔记之简介(一)

Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是我们所需要的结果。在运行一个mapreduce计算任务时候,任务过程被分为两个阶段:map阶段和reduce阶段,每个阶段都是用键值对(key/value)作为输入(input)和

2016-10-13 15:27:05 1915

转载 MapReduce二次排序

本文主要介绍下二次排序的实现方式我们知道MapReduce是按照key来进行排序的,那么如果有个需求就是先按照第一个字段排序,在第一个字段相等的情况下,按照第二个字段排序,这就是传说中的二次排序。下面就具体说一下二次排序的实现方式主要就是4点1.自定义一个Key为什么要自定义一个Key,我们知道MapReduce中排序就是按照Key来排序的,我们

2016-10-13 11:55:31 523

转载 Hadoop二次排序及MapReduce处理流程实例详解

一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的,在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现原理及整个MapReduce框架的处理流程的分析还是有非常大的出入,而且部分分析是没有经过验证的。本文将通过一个实际的MapRe

2016-10-13 11:53:59 2679

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除