- 博客(11)
- 资源 (10)
- 收藏
- 关注
转载 淘宝数据魔方技术架构解析
淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。 为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据
2014-01-27 12:35:52 1666
原创 怎样贡献hadoop代码
转自Hadooper论坛:http://www.hadooper.cn/dct/page/65789获得源码 首先,你需要Hadoop的 源码。 你可以用SVN获得源码,大部分的开发都在”trunk”下。svn checkout http://svn.apache.org/repos/asf/hadoop/core/trunk/ hadoop-core-tru
2014-01-22 12:44:38 1975
转载 Hadoop MapReduce开发最佳实践(上篇)
本文是Hadoop最佳实践系列第二篇,上一篇为《Hadoop管理员的十个最佳实践》。MapRuduce开发对于大多数程序员都会觉得略显复杂,运行一个WordCount(Hadoop中hello word程序)不仅要熟悉MapRuduce模型,还要了解Linux命令(尽管有Cygwin,但在Windows下运行MapRuduce仍然很麻烦),此外还要学习程序的打包、部署、提交job、调试等技
2014-01-22 12:34:13 1371
转载 Hadoop管理员的十个最佳实践
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源码,有时会向同事、网友请教,遇到复杂问题则会通过mail list向全球各地Hado
2014-01-22 12:32:10 1156
转载 hive 执行计划
Hive provides an EXPLAIN command that shows the execution plan for a query. The syntax for this statement is as follows:EXPLAIN [EXTENDED] query hive> explain SELECT a.bar, cou
2014-01-13 18:09:19 1419
转载 hive 结合执行计划 分析 limit 执行原理
在hive查询中要限制查询输出条数, 可以用limit 关键词指定,如 select columnname1 from table1 limit 10; 这样hive将输出符合查询条件的10个记录,从根本上说, hive是hadoop提交作业的客户端,它使用antlr词法语法分析工具,对SQL进行分析优化后翻译成一系列MapReduce作业,向hadoop提交运行作业以得到结果. 看一条简
2014-01-13 18:07:45 1178
转载 Hadoop中两表JOIN的处理方法
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自
2014-01-07 22:27:00 819
原创 linux 下route命令
为了让设备能访问另一个子网,需要在设备里增加路由到子网络,下面是一些资料。基本操作如下:一般来说,都是为了能访问别的子网才设置路由的,比如说,你的主机处于192.168.10.0/24,而你想访问192.168.20.0/24网的主机,当然你知道一个网关IP,例如192.168.10.1(必须和你主机处于同一子网),那么,你可以这样配置路由。添加路由route add
2014-01-09 18:23:02 804
转载 Hadoop集群监测工具——ganglia安装实例
Ganglia是一个用于集群性能监测的工具,为了说明其使用方法,本文结合Hadoop集群环境讲解ganglia的安装过程,希望能给感兴趣的朋友提供参考帮助。测试环境Ubuntu 12.04 LTSHadoop 0.20.2ganglia 3.1.7主要概念数据监测节点(gmond):这个部件装在需要监测的节点上,用于收集本节点的运行情况,并将这些统计信息传送到gmetad,
2014-01-07 19:04:01 1397
转载 用Ganglia监控集群的性能
摘要:对基础设施的监控主要包括三个方面:状态,性能和可用性。通俗的讲就是:是否在干活,干了多少活,还能干多少。与Cacti、Nagios、Zabbix等工具相比,Ganglia更关注整个集群的性能和可用性。可以用于集群的性能监控、分析和优化。文章目录Ganglia简介Ganglia架构Ganglia规划安装和配置安装配置防火墙规则配置被监控节点(/etc/ganglia
2014-01-07 18:09:18 3290
转载 Ganglia:分布式监控系统
转载请注明作者:phylips@bmy 2011-9-30出处:http://duanple.blog.163.com/blog/static/70971767201183092413177/1 环境安装配置1.1 依赖软件下载Ganglia是伯克利开发的一个集群监控软件。可以监视和显示集群中的节点的各种状态信息,比如如:cpu 、mem、
2014-01-07 17:01:50 1125
HTTP协议详解 学习servlet的必备资料
2009-10-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人