自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

快乐程序员的专栏

专注于hadoop运维,大数据处理,即席查询,hadoop生态圈组件研究

转载 淘宝数据魔方技术架构解析

淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。     为此,我们...

2014-01-27 12:35:52

阅读数 1445

评论数 0

原创 怎样贡献hadoop代码

转自Hadooper论坛:http://www.hadooper.cn/dct/page/65789 获得源码         首先,你需要Hadoop的 源码。 你可以用SVN获得源码,大部分的开发都在”trunk”下。 svn checkout http://svn.apache.org...

2014-01-22 12:44:38

阅读数 1521

评论数 0

转载 Hadoop MapReduce开发最佳实践(上篇)

本文是Hadoop最佳实践系列第二篇,上一篇为《Hadoop管理员的十个最佳实践》。 MapRuduce开发对于大多数程序员都会觉得略显复杂,运行一个WordCount(Hadoop中hello word程序)不仅要熟悉MapRuduce模型,还要了解Linux命令(尽管有Cygwin,但在...

2014-01-22 12:34:13

阅读数 1121

评论数 0

转载 Hadoop管理员的十个最佳实践

前言 接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。 在解决问题的过...

2014-01-22 12:32:10

阅读数 1019

评论数 0

转载 hive 执行计划

Hive provides an EXPLAIN command that shows the execution plan for a query. The syntax for this statement is as follows: EXPLAIN [EXTENDED] qu...

2014-01-13 18:09:19

阅读数 1141

评论数 0

转载 hive 结合执行计划 分析 limit 执行原理

在hive查询中要限制查询输出条数, 可以用limit 关键词指定,如 select columnname1 from table1 limit 10; 这样hive将输出符合查询条件的10个记录,从根本上说, hive是hadoop提交作业的客户端,它使用antlr词法语法分析工具,对SQL进行...

2014-01-13 18:07:45

阅读数 867

评论数 0

转载 Hadoop中两表JOIN的处理方法

1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。 本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对...

2014-01-07 22:27:00

阅读数 637

评论数 0

原创 linux 下route命令

为了让设备能访问另一个子网,需要在设备里增加路由到子网络,下面是一些资料。基本操作如下: 一般来说,都是为了能访问别的子网才设置路由的,比如说,你的主机处于192.168.10.0/24,而你想访问192.168.20.0/24网的主机,当然你知道一个网关IP,例如192.168.10.1(...

2014-01-09 18:23:02

阅读数 660

评论数 0

转载 Hadoop集群监测工具——ganglia安装实例

Ganglia是一个用于集群性能监测的工具,为了说明其使用方法,本文结合Hadoop集群环境讲解ganglia的安装过程,希望能给感兴趣的朋友提供参考帮助。 测试环境 Ubuntu 12.04 LTSHadoop 0.20.2ganglia 3.1.7 主要概念 数据监测节点(gm...

2014-01-07 19:04:01

阅读数 1203

评论数 0

转载 用Ganglia监控集群的性能

摘要: 对基础设施的监控主要包括三个方面:状态,性能和可用性。通俗的讲就是:是否在干活,干了多少活,还能干多少。与Cacti、Nagios、Zabbix等工具相比,Ganglia更关注整个集群的性能和可用性。可以用于集群的性能监控、分析和优化。 文章目录 Ganglia简介Gangl...

2014-01-07 18:09:18

阅读数 2829

评论数 0

转载 Ganglia:分布式监控系统

转载请注明作者:phylips@bmy 2011-9-30 出处:http://duanple.blog.163.com/blog/static/70971767201183092413177/ 1         环境安装配置 1.1      依赖软件下载 Gangli...

2014-01-07 17:01:50

阅读数 963

评论数 0

提示
确定要删除当前文章?
取消 删除