当前搜索:

MapReduce: Partition

1、partion的作用 Partion作用主要是对map处理的数据进行分区,可以解决数据倾斜的问题。 2、如果没有定义partitioner,那数据在被送达reducer前是如何被分区的? hadoop有一个默认的分区类,HashPartioer类,通过对输入的k2去hash值来确认map输出的k2,v2送到哪一个reduce中去执行。 3、代码体现public class Provinc...
阅读(427) 评论(0)

MapReduce: combiner

1、什么是combiner? combiner就是规约操作,通过对map输出的数量进行规约,可以减少reduce的数量,提高执行效率combiner的输入输出类型必须和mapper的输出以及reducer的输入类型一致 2、什么情况要使用 combiner,什么情况不使用? 求平均数的时候就不需要用combiner,因为不会减少reduce执行数量。在其他的时候,可以依据情况,使用combi...
阅读(411) 评论(0)

MapReduce:详解shuffle过程

Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我...
阅读(437) 评论(0)

mapreduce的shuffle,partition,combine

shuffle:   是描述着数据从map端传输到reduce端的过程,而且我们知道的是hadoop的集群环境中,大部分map task和reduce task是在不同的node上执行,主要的开销是网络开销和磁盘IO开销,因此shuffle的主要作用相当于是   1.完整的从map task端传输到reduce task端。   2.跨节点传输数据时,尽可能减少对带宽的消耗.(注意是reduce执行...
阅读(586) 评论(0)

HDFS原理分析(一)

DFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。一、HDFS的主要设计理念1、存储超大文件这里的“超大文件”是指几百MB、GB甚至TB级别的文件。 2、最高效的访问模式是 一次写入、多次读取(流式数据访问)HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分...
阅读(491) 评论(0)

Java基础:split 分割 字符串(分隔符如:* ^ : | , .) 及注意点

split 分割 字符串(分隔符如:* ^ : | , .) 及注意点...
阅读(479) 评论(0)

Could not publish server configuration for Tomcat v6.0 Server at localhost

Could not publish server configuration for Tomcat v6.0 Server at localhost...
阅读(477) 评论(0)

mySql:MySql安装杂记

1)在公司安装mysql没遇到问题;但在家里安装遇到了问题,安装完成后没有反映,后来发现只是安装了程序,并没有安装服务。 2)安装完程序后(win7 32位),运行mysql:  ERROR 2003 (HY000): Can't connect to MySQL server on 'localhost' 2)在bin下执行:mysqld --install;然后再服务看到mysql服务,...
阅读(419) 评论(0)

Reids的订阅和发布详细图解

Java代码展示如下: http://blog.csdn.net/silentwolfyh/article/details/48103441 注意: 1、先从Dos进入Reids的存放位置。 2、安装Redis工具 3、启动Dos操作。 安装Redis客户端: 本地测试:...
阅读(485) 评论(0)

Java链接SqlServer数据库

Java链接SqlServer数据库...
阅读(471) 评论(0)

Redis的订阅和发布代码

Redis的发布和订阅,Java程序展现...
阅读(536) 评论(0)

lOG4j日志的使用

package cn.yc.com.Test.logs;import org.apache.log4j.Logger; /** * * Description: log4j的使用方法,及级别定义 * @author 余辉 * @date 2015年8月17日上午9:49:20 * @version 1.0 */ public class logs {...
阅读(621) 评论(0)

SQL server 2012序列号 注册码

亲测可用   MICROSOFT SQL SERVER 2012 企业核心版激活码序列号: FH666-Y346V-7XFQ3-V69JM-RHW28   MICROSOFT SQL SERVER 2012 商业智能版激活码序列号: HRV7T-DVTM4-V6XG8-P36T4-MRYT6   MICROSOFT SQL SERVER 2012...
阅读(1239) 评论(0)

50种方法优化SQL Server

50种方法优化SQL Server 查询速度慢的原因很多,常见如下几种:     1、没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷)     2、I/O吞吐量小,形成了瓶颈效应。     3、没有创建计算列导致查询不优化。     4、内存不足     5、网络速度慢     6、查询出的数据量过大(可以采用多次查询,其他的方法降低数据量)...
阅读(559) 评论(0)
329条 共22页首页 上一页 ... 21 22
    【个人简介】
    个人资料
    • 访问:432786次
    • 积分:7092
    • 等级:
    • 排名:第3488名
    • 原创:282篇
    • 转载:23篇
    • 译文:24篇
    • 评论:90条
    博客专栏