关闭
当前搜索:

HIVE的简介

What is Hive Hive是基于Hadoop(HDFS, MapReduce)的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 本质是将SQL转换为MapReduce程序 Why use Hive面临的问题: 1)人员学习成本太高 我只是需要一个简单的环境: 1)MapReduce如何搞定 2) 复杂查询好难 3) J...
阅读(421) 评论(0)

MapReduce怎样实现二级排序

有两种方法进行二次排序,分别为:buffer and in memory sort和 value-to-key conversion。对于buffer and in memory sort,主要思想是:在reduce()函数中,将某个key对应的所有value保存下来,然后进行排序。 这种方法最大的缺点是:可能会造成out of memory。对于value-to-key conversion,主要...
阅读(909) 评论(0)

yarn的工作流程

运行在YARN上的应用程序主要分为两类: (1)短应用程序 (2)长应用程序 短应用程序是指一定时间内(可能是秒级、分钟级或小时级,尽管天级别或者更长时间的也存在,但非常少)可运行完成并正常退出的应用程序,比如MapReduce作业、Tez DAG作业等.长应用程序是指不出意外,永不终止运行的应用程序,通常是一些服务,比如Storm Service(主要包括Nimbus和Supervisor两...
阅读(450) 评论(0)

MapReduce:实现jion的几种方法

reduce side join reduce side join是一种最简单的join方式,其主要思想如下: 在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每条数据打一个标签 (tag),比如:tag=0表示来自文件File1,tag=2表示来自文件File2。即:map阶段的主要任务是对不同文件中的数据打标签。...
阅读(1480) 评论(0)

MapReduce: Partition

1、partion的作用 Partion作用主要是对map处理的数据进行分区,可以解决数据倾斜的问题。 2、如果没有定义partitioner,那数据在被送达reducer前是如何被分区的? hadoop有一个默认的分区类,HashPartioer类,通过对输入的k2去hash值来确认map输出的k2,v2送到哪一个reduce中去执行。 3、代码体现public class Provinc...
阅读(504) 评论(0)

MapReduce: combiner

1、什么是combiner? combiner就是规约操作,通过对map输出的数量进行规约,可以减少reduce的数量,提高执行效率combiner的输入输出类型必须和mapper的输出以及reducer的输入类型一致 2、什么情况要使用 combiner,什么情况不使用? 求平均数的时候就不需要用combiner,因为不会减少reduce执行数量。在其他的时候,可以依据情况,使用combi...
阅读(465) 评论(0)

MapReduce:详解shuffle过程

Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我...
阅读(492) 评论(0)

mapreduce的shuffle,partition,combine

shuffle:   是描述着数据从map端传输到reduce端的过程,而且我们知道的是hadoop的集群环境中,大部分map task和reduce task是在不同的node上执行,主要的开销是网络开销和磁盘IO开销,因此shuffle的主要作用相当于是   1.完整的从map task端传输到reduce task端。   2.跨节点传输数据时,尽可能减少对带宽的消耗.(注意是reduce执行...
阅读(632) 评论(0)

HDFS原理分析(一)

DFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。一、HDFS的主要设计理念1、存储超大文件这里的“超大文件”是指几百MB、GB甚至TB级别的文件。 2、最高效的访问模式是 一次写入、多次读取(流式数据访问)HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分...
阅读(569) 评论(0)

Java基础:split 分割 字符串(分隔符如:* ^ : | , .) 及注意点

split 分割 字符串(分隔符如:* ^ : | , .) 及注意点...
阅读(514) 评论(0)

Could not publish server configuration for Tomcat v6.0 Server at localhost

Could not publish server configuration for Tomcat v6.0 Server at localhost...
阅读(502) 评论(0)

mySql:MySql安装杂记

1)在公司安装mysql没遇到问题;但在家里安装遇到了问题,安装完成后没有反映,后来发现只是安装了程序,并没有安装服务。 2)安装完程序后(win7 32位),运行mysql:  ERROR 2003 (HY000): Can't connect to MySQL server on 'localhost' 2)在bin下执行:mysqld --install;然后再服务看到mysql服务,...
阅读(458) 评论(0)

Reids的订阅和发布详细图解

Java代码展示如下: http://blog.csdn.net/silentwolfyh/article/details/48103441 注意: 1、先从Dos进入Reids的存放位置。 2、安装Redis工具 3、启动Dos操作。 安装Redis客户端: 本地测试:...
阅读(545) 评论(0)

Java链接SqlServer数据库

Java链接SqlServer数据库...
阅读(514) 评论(0)

Redis的订阅和发布代码

Redis的发布和订阅,Java程序展现...
阅读(565) 评论(0)
333条 共23页首页 上一页 ... 21 22 23 下一页 尾页
    【个人简介】
    姓名:余辉

    地点:北京昌平

    学历:中科院硕士

    QQ :348835027

    微信:silentwolfyh

    我的新书【点击图片】
    (京东)(天猫)(当当)

    本书QQ群:275243793
    个人资料
    • 访问:511950次
    • 积分:7850
    • 等级:
    • 排名:第3187名
    • 原创:286篇
    • 转载:23篇
    • 译文:24篇
    • 评论:95条
    博客专栏