- 博客(9)
- 收藏
- 关注
转载 Hadoop CombineFileInputFormat原理说明
http://blog.sina.com.cn/s/blog_69d9bff30101g1c4.html
2015-07-21 10:01:02 316
转载 hadoop优化
1. 使用自定义Writable自带的Text很好用,但是字符串转换开销较大,故根据实际需要自定义Writable,注意作为Key时要实现WritableCompareable接口避免output.collect(new Text( ),new Text())提倡key.set( ) value.set( ) output.collect(key,value)前者会产生大量的Tex
2015-07-20 09:40:54 350
转载 mapreduce处理数据倾斜的一些方法
在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的(一般能用SQL表述的) 数据切分上的
2015-07-20 08:28:04 1813
转载 hbase设计及优化
Row Key 设计原则:1)Rowkey长度原则,Rowkey是一个二进制码流,可以是任意字符串,最大长度64KB,实际应用中一般为10~100bytes,存为byte[]字节数组,一般设计成定长的。建议是越短越好,不要超过16个字节。原因一数据的持久化文件HFile中是按照KeyValue存储的,如果Rowkey过长比如100个字节,1000万列数据光Rowkey就要占用100*1000万
2015-07-19 23:15:21 286
转载 hive内部标和外部表的区别
HIve 创建内部表时,会将数据移动到数据仓库指定的路径;创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。 在删除表时,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删数据。Hive中的读时模式与rdbm的写实模式:读时模式,只有在读取数据的时候hive才检查、解析具体的数据字段、schema,它的优势是load data 非常迅速,因为它不需要读取数
2015-07-19 23:10:11 519
转载 在hadoop2实际生产环境中,为什么还需要SecondeNamenode
SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA。真正的了解了SecondNamenode以后,才发现事实并不是这样的。下面这段是Hadoop对SecondNamenode的准确定义:* The Secondary Namenode is a helper to the primary
2015-07-17 20:06:21 1250
原创 hadoop中的调度器总结
hadoop中常用的调度器有三种:1、Fifo:默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。2、计算能力调度器Capacity schedular:支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略,为了防止同一个作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源进行限定。调度时,首先按照以下策略选择一个合适队列:计算每个正在
2015-07-17 16:19:49 2413
原创 hadoop总结
如何安装配置一个Apache的开元hadoop,简述步骤: 1、创建hadoop账户 2、修改ip 3、修改/etc/profile/文件,配置Java的环境变量 4、修改host文件域名 5、安装SSH,配置无秘钥通信 6、解压hadoop,配置hadoop-env.sh、core-site.xml、mapre-site.xml、hdfs-site.sh.
2015-07-17 15:45:57 313
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人