- 博客(143)
- 资源 (7)
- 收藏
- 关注
转载 MySQL--sql 语句执行顺序
好像自已在书写 SQL 语句时由于不清楚各个关键字的执行顺序, 往往组织的 SQL 语句缺少很好的逻辑, 凭感觉 "拼凑" ( 不好意思, 如果您的 SQL 语句也经常 "拼凑", 那您是不是得好好反省一下呢?, 呵呵). 确实是爽了自己, 可苦了机器, 服务器还需要在我们的杂乱无章的 SQL 语句中寻找它下一句需要执行的关键字在哪里. 效率嘛, 由于我们的感觉神经对秒以下的变化实在不敏感, 暂且
2012-12-31 16:26:00 407
MySQL--sql 语句执行顺序
好像自已在书写 SQL 语句时由于不清楚各个关键字的执行顺序, 往往组织的 SQL 语句缺少很好的逻辑, 凭感觉 "拼凑" ( 不好意思, 如果您的 SQL 语句也经常 "拼凑", 那您是不是得好好反省一下呢?, 呵呵). 确实是爽了自己, 可苦了机器, 服务器还需要在我们的杂乱无章的 SQL 语句中寻找它下一句需要执行的关键字在哪里. 效率嘛, 由于我们的感觉神经对秒以下的变化实在不敏感, 暂且...
2012-12-31 16:26:00 82
MySQL--sql 语句执行顺序
好像自已在书写 SQL 语句时由于不清楚各个关键字的执行顺序, 往往组织的 SQL 语句缺少很好的逻辑, 凭感觉 "拼凑" ( 不好意思, 如果您的 SQL 语句也经常 "拼凑", 那您是不是得好好反省一下呢?, 呵呵). 确实是爽了自己, 可苦了机器, 服务器还需要在我们的杂乱无章的 SQL 语句中寻找它下一句需要执行的关键字在哪里. 效率嘛, 由于我们的感觉神经对秒以下的变化实在不敏感, 暂且...
2012-12-31 16:26:00 66
转载 通过学生-课程关系表,熟悉hive语句
1、在hive中创建以下三个表。create table student(Sno int,Sname string,Sex string,Sage int,Sdept string)row format delimited fields terminated by ','stored as textfile;create table course(Cno int,Cname stri
2012-12-31 16:24:33 519
通过学生-课程关系表,熟悉hive语句
1、在hive中创建以下三个表。create table student(Sno int,Sname string,Sex string,Sage int,Sdept string)row format delimited fields terminated by ','stored as textfile;create table course(Cno int,Cname stri...
2012-12-31 16:24:00 121
转载 MapReduce:详解Shuffle过程
转载自:http://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduc
2012-12-30 21:38:49 266
MapReduce:详解Shuffle过程
转载自:http://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这...
2012-12-30 21:38:00 52
MapReduce:详解Shuffle过程
转载自:http://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这...
2012-12-30 21:38:00 57
转载 MapReduce中的Shuffle和Sort分析
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。 MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任
2012-12-30 21:06:51 426
MapReduce中的Shuffle和Sort分析
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。 MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map ...
2012-12-30 21:06:00 54
转载 hadoop中的各种排序
1:shuffle阶段的排序(部分排序)shuffle阶段的排序可以理解成两部分,一个是对spill进行分区时,由于一个分区包含多个key值,所以要对分区内的按照key进行排序,即key值相同的一串存放在一起,这样一个partition内按照key值整体有序了。第二部分并不是排序,而是进行merge,merge有两次,一次是map端将多个spill 按照分区和分区内的key进行merge,
2012-12-30 17:47:36 307
hadoop中的各种排序
1:shuffle阶段的排序(部分排序)shuffle阶段的排序可以理解成两部分,一个是对spill进行分区时,由于一个分区包含多个key值,所以要对分区内的<key,value>按照key进行排序,即key值相同的一串<key,value>存放在一起,这样一个partition内按照key值整体有序了。第二部分并不是排序,而是进行merge,merge有两次...
2012-12-30 17:47:00 89
转载 hadoop二次排序(合集)
1.原理在map阶段的最后,会先调用job.setPartitionerClass对这个List进行分区,每个分区映射到一个reducer。每个分区内又调用job.setSortComparatorClass设置的key比较函数类排序。可以看到,这本身就是一个二次排序。如果没有通过job.setSortComparatorClass设置key比较函数类,则使用key的实现的compareTo方
2012-12-30 17:46:39 458
hadoop二次排序(合集)
1.原理在map阶段的最后,会先调用job.setPartitionerClass对这个List进行分区,每个分区映射到一个reducer。每个分区内又调用job.setSortComparatorClass设置的key比较函数类排序。可以看到,这本身就是一个二次排序。如果没有通过job.setSortComparatorClass设置key比较函数类,则使用key的实现的compar...
2012-12-30 17:46:00 150
hadoop二次排序(合集)
1.原理在map阶段的最后,会先调用job.setPartitionerClass对这个List进行分区,每个分区映射到一个reducer。每个分区内又调用job.setSortComparatorClass设置的key比较函数类排序。可以看到,这本身就是一个二次排序。如果没有通过job.setSortComparatorClass设置key比较函数类,则使用key的实现的compar...
2012-12-30 17:46:00 63
转载 使用Hadoop MapReduce 进行排序
本文转自:http://www.alidw.com/?p=1420 在hadoop中的例子TeraSort,就是一个利用mapredue进行排序的例子。本文参考并简化了这个例子: 排序的基本思想是利用了mapreduce的自动排序功能,在hadoop中,从map到reduce阶段,map出来的结构会按照各个key按照 hash值分配到各个reduce中,其中,在re
2012-12-30 17:43:52 417
使用Hadoop MapReduce 进行排序
本文转自:http://www.alidw.com/?p=1420 在hadoop中的例子TeraSort,就是一个利用mapredue进行排序的例子。本文参考并简化了这个例子: 排序的基本思想是利用了mapreduce的自动排序功能,在hadoop中,从map到reduce阶段,map出来的结构会按照各个key按照 hash值分配到各个reduce中,其中,在reduce中所有...
2012-12-30 17:43:00 85
使用Hadoop MapReduce 进行排序
本文转自:http://www.alidw.com/?p=1420 在hadoop中的例子TeraSort,就是一个利用mapredue进行排序的例子。本文参考并简化了这个例子: 排序的基本思想是利用了mapreduce的自动排序功能,在hadoop中,从map到reduce阶段,map出来的结构会按照各个key按照 hash值分配到各个reduce中,其中,在reduce中所有...
2012-12-30 17:43:00 77
转载 Hadoop二次排序
转载自:http://www.fuzhijie.me/?p=34我想涉及到文件的Join操作应该都要使用到二次排序吧,之前我用字符串拼接的方法显得太不专业了,本来在reduce过程中是不需要保存这些数据的,遍历一次便可以将记录全部collect好。Hadoop 0.20包里面有一个SecondarySort的例子程序,结合公司牛人写的一个ppt,终于搞明白了。呵呵,刚好也用上了,所以总结一
2012-12-30 17:24:20 356
Hadoop二次排序
转载自:http://www.fuzhijie.me/?p=34我想涉及到文件的Join操作应该都要使用到二次排序吧,之前我用字符串拼接的方法显得太不专业了,本来在reduce过程中是不需要保存这些数据的,遍历一次便可以将记录全部collect好。Hadoop 0.20包里面有一个SecondarySort的例子程序,结合公司牛人写的一个ppt,终于搞明白了。呵呵,刚好也用上了,所以总结一下。...
2012-12-30 17:24:00 116
Hadoop二次排序
转载自:http://www.fuzhijie.me/?p=34我想涉及到文件的Join操作应该都要使用到二次排序吧,之前我用字符串拼接的方法显得太不专业了,本来在reduce过程中是不需要保存这些数据的,遍历一次便可以将记录全部collect好。Hadoop 0.20包里面有一个SecondarySort的例子程序,结合公司牛人写的一个ppt,终于搞明白了。呵呵,刚好也用上了,所以总结一下。...
2012-12-30 17:24:00 69
转载 MapReduce的排序和二次排序
自己学习排序和二次排序的知识整理如下。1.Hadoop的序列化格式介绍:Writable2.Hadoop的key排序逻辑3.全排序4.如何自定义自己的Writable类型5.如何实现二次排序1.Hadoop的序列化格式介绍:Writable要了解和编写MR实现排序必须要知道的第一个知识点就是Writable相关的接口和类,这些是HADOOP自己的序列
2012-12-30 17:01:00 347
MapReduce的排序和二次排序
自己学习排序和二次排序的知识整理如下。1.Hadoop的序列化格式介绍:Writable2.Hadoop的key排序逻辑3.全排序4.如何自定义自己的Writable类型5.如何实现二次排序1.Hadoop的序列化格式介绍:Writable要了解和编写MR实现排序必须要知道的第一个知识点就是Writable相关的接口和类,这些是HADOOP自己的序列化...
2012-12-30 17:01:00 67
转载 hadoop shuffle机制中针对中间数据的排序过程详解(源代码级)
在所有公开资料中,很少有对Hadoop 中间数据的sort过程进行详细介绍的。如果想要深入了解hadoop对中间数据的排序机制,只有通过阅读源代码才能达到。而hadoop的这段代码本身具有非常大的迷惑性,如果不注意细节,很容易会发生错误的理解。 本篇文章从原理上详细介绍了hadoop针对中间数据的排序机制,并且对一些重要的源代码段进行了介绍。阅读本文对理解该机制或者深入阅读该部分的hadoop源代
2012-12-30 16:51:06 337
hadoop shuffle机制中针对中间数据的排序过程详解(源代码级)
在所有公开资料中,很少有对Hadoop 中间数据的sort过程进行详细介绍的。如果想要深入了解hadoop对中间数据的排序机制,只有通过阅读源代码才能达到。而hadoop的这段代码本身具有非常大的迷惑性,如果不注意细节,很容易会发生错误的理解。 本篇文章从原理上详细介绍了hadoop针对中间数据的排序机制,并且对一些重要的源代码段进行了介绍。阅读本文对理解该机制或者深入阅读该部分的hadoop源代...
2012-12-30 16:51:00 160
转载 Hadoop MapReduce 任务执行流程源代码详细解析
引言 1.1 目的 1.2 读者范围2 综述3 代码详细分析 3.1 启动Hadoop集群 3.2 JobTracker启动以及Job的初始化 3.3 TaskTracker启动以及发送Heartbeat 3.4 JobTracker接收Heartbeat并向TaskTracker分配任务 3.5 TaskTracker接收HeartbeatRespon
2012-12-30 16:50:28 438
Hadoop MapReduce 任务执行流程源代码详细解析
引言1.1 目的1.2 读者范围2 综述3 代码详细分析3.1 启动Hadoop集群3.2 JobTracker启动以及Job的初始化3.3 TaskTracker启动以及发送Heartbeat3.4 JobTracker接收Heartbeat并向TaskTracker分配任务3.5 TaskTracker接收HeartbeatResponse3....
2012-12-30 16:50:00 73
Hadoop MapReduce 任务执行流程源代码详细解析
引言1.1 目的1.2 读者范围2 综述3 代码详细分析3.1 启动Hadoop集群3.2 JobTracker启动以及Job的初始化3.3 TaskTracker启动以及发送Heartbeat3.4 JobTracker接收Heartbeat并向TaskTracker分配任务3.5 TaskTracker接收HeartbeatResponse3....
2012-12-30 16:50:00 74
转载 Hadoop中shuffle阶段流程分析
宏观上,Hadoop每个作业要经历两个阶段:Map phase和reduce phase。对于Map phase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果 -》将结果写到本地磁盘上;对于reduce phase,同样包含四个子阶段:从各个map task上读相应的数据(shuffle)-》sort-》执行reduce函数-》将结果写到HDFS中。
2012-12-30 16:42:28 349
Hadoop中shuffle阶段流程分析
宏观上,Hadoop每个作业要经历两个阶段:Map phase和reduce phase。对于Map phase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果 -》将结果写到本地磁盘上;对于reduce phase,同样包含四个子阶段:从各个map task上读相应的数据(shuffle)-》sort-》执行reduce函数-》将结果写到HDFS中。...
2012-12-30 16:42:00 75
转载 MapReduce高级编程
1. Chaining MapReduce Jobs任务链2. Join data from different data source. Changing MapReduce jobs 1.1 Chaining MapReduce jobs in a sequence MapReduce程序能够执行一些复杂数据处理的工作,通常的情况下,需要将这个任务task分割成多个较小的s
2012-12-30 16:25:20 266
MapReduce高级编程
1. Chaining MapReduce Jobs任务链2. Join data from different data source<1>. Changing MapReduce jobs1.1Chaining MapReduce jobs in a sequenceMapReduce程序能够执行一些复杂数据处理的工作,通常的情况下,需要将这个任务tas...
2012-12-30 16:25:00 61
MapReduce高级编程
1. Chaining MapReduce Jobs任务链2. Join data from different data source<1>. Changing MapReduce jobs1.1Chaining MapReduce jobs in a sequenceMapReduce程序能够执行一些复杂数据处理的工作,通常的情况下,需要将这个任务tas...
2012-12-30 16:25:00 67
转载 Hadoop全局排序
1. Hellow hadoop~~!Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机上做任务的分发,执行中间数据排序以及最后的汇总,期间还包含节点发现,任务的重试,故障节点替换等等等等的维护以及异常情况处理。谁叫had
2012-12-30 16:08:00 518
Hadoop全局排序
1. Hellow hadoop~~!Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机上做任务的分发,执行中间数据排序以及最后的汇总,期间还包含节点发现,任务的重试,故障节点替换等等等等的维护以及异常情况处理。谁叫hadoo...
2012-12-30 16:08:00 178
Hadoop全局排序
1. Hellow hadoop~~!Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机上做任务的分发,执行中间数据排序以及最后的汇总,期间还包含节点发现,任务的重试,故障节点替换等等等等的维护以及异常情况处理。谁叫hadoo...
2012-12-30 16:08:00 230
转载 hadoop的1TB排序
原文链接:http://www.javaeye.com/topic/7099861、1TB(或1分钟)排序的冠军作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1
2012-12-30 15:37:45 387
hadoop的1TB排序
原文链接:http://www.javaeye.com/topic/7099861、1TB(或1分钟)排序的冠军作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1...
2012-12-30 15:37:00 105
hadoop的1TB排序
原文链接:http://www.javaeye.com/topic/7099861、1TB(或1分钟)排序的冠军作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1...
2012-12-30 15:37:00 101
转载 Hadoop中Partition解析
1.解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使用时的上
2012-12-30 12:08:23 343
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人