- 博客(13)
- 资源 (1)
- 收藏
- 关注
转载 Hbase Shell 命令官方详解
alter Alter column family schema; pass table name and a dictionary specifying new column family schema. Dictionaries are described below in the GENERAL NOTES section. Dicti
2012-12-25 14:04:20 1050
转载 Hadoop相关的考题
//Hadoop基础Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是A. HadoopB. NutchC. LuceneD. Solr答案:D配置Hadoop时,JAVA_HOME包含在哪一个配置文件中A. hadoop-default.xmlB. hadoop-env.shC
2012-12-19 11:33:04 7500
原创 HBase的RegionServer参数配置
hbase.hregion.max.filesize默认值:256M说明:在当前ReigonServer上单个Reigon的最大存储空间,单个Region超过该值时,这个Region会被自动split成更小的region。调优:小region对split和compaction友好,因为拆分region或compact小region里的storefile速度很快,内存占用低。缺点是s
2012-12-19 10:56:26 6980
原创 HBase的RegionServer宕机处理的探讨
HBase的RegionServer宕机超过一定时间后,HMaster会将其所管理的region重新分布到其他活动的RegionServer上,由于数据和日志都持久在HDFS中,该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。但是重新分配的region需要根据日志恢复原RegionServer中的内存MemoryStore表,这会导致宕机的region在这段时间内无法对外提供服
2012-12-19 10:51:44 3605
原创 HBase的一些问题和答案
1.我们常说HBase是“数据即日志”的数据库,它是怎样修改和删除数据的?和Oracle这类传统的RDBMS有什么区别?由于HBase的数据文件在HDFS系统中,因此本质上很难修改和删除数据。在HBase中,修改和删除数据都是增加1个新版本的数据(时间戳为最新),旧版本的数据并没有发生变化。Oracle没有数据的版本概念,在修改和删除数据时不会增加新的数据记录,直接对老数据进行修改或删除。
2012-12-19 10:51:09 3402
转载 Hive任务优化基础
1.少用count(distinct); select count(distinct cookie_id) from lxw_t1; 性能差的原因:只会用一个reduce去处理; 优化的写法:select count(1) from (select cookie_id from lxw_t1 group by cookie_id) x; 配合set mapred.red
2012-12-11 20:11:56 1220
转载 Hive任务优化--控制hive任务中的map数和reduce数
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文
2012-12-11 20:10:56 16618 4
转载 MapReduce: 一个巨大的倒退
下面的一篇文章是一些RDBMS系统的大牛人从多个方面对MapReduce的批评,不妨一看。前言databasecolumn 的数据库大牛们(其中包括PostgreSQL的最初伯克利领导:Michael Stonebraker)最近写了一篇评论当前如日中天的MapReduce 技术的文章,引发剧烈的讨论。我抽空在这儿翻译一些,一起学习。译者注:这种 Tanenbaum vs. L
2012-12-11 20:01:27 1669
转载 Hadoop的调度器总结
随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:(1)默认的调度器FIFOHadoop中默认的调度器,它先按照作业的优先级高低,再按照
2012-12-11 16:53:22 685
转载 爱情、婚姻、幸福、外遇、生活
一天,弟子问佛陀:什么是爱情? 佛陀说:我请你穿越这片稻田,去摘一株最大最金黄的麦穗回来,但是有个规则:你不能走回头路,而且你只能摘一次。于是弟子去做了。 许久之后,他却空着手回来了。 佛陀问他:怎么空手回来了? 弟子说道:当我走在田间的时候,曾看到过几株特别大特别灿烂的麦穗,可是,我总想着前面也许会有更大更好的,于是没有摘;但是,我继续走的时候,看到的麦穗,总觉得还不如先
2012-12-07 21:14:52 898
转载 基于C++的Hadoop Map/Reduce框架--HCE
Hadoop系统提供了MapReduce计算框架的开源实现,像Yahoo!、Facebook、淘宝、中移动、百度、腾讯等公司都在借助Hadoop进行海量数据处理。Hadoop系统性能不仅取决于任务调度器的分配策略,还受到分配后实际任务执行效率的影响,任务执行常常涉及读取、排序、归并、压缩、写入等具体阶段。HCE计算框架是一个开源项目,旨在通过优化任务执行的各个阶段,提升整个Hadoop系统的效
2012-12-07 11:40:23 9881 1
转载 Hadoop安全模式的理解
安全模式异常:在hadoop的实践过程中,系统启动的时候去修改和删除文件有时候会报以下错误:org.apache.hadoop.dfs.SafeModeException: Cannotdelete/user/hadoop/input. Name node is in safe mode.从字面上来理解:“Name nodeis in safe mode.”hadoop的namenode处
2012-12-07 11:26:41 10764
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人