Hadoop
文章平均质量分 57
caoli98033
这个作者很懒,什么都没留下…
展开
-
Hadoop Shell命令
转Hadoop官网的shell命令 http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,sc转载 2014-12-02 22:51:07 · 398 阅读 · 0 评论 -
(转)Hadoop、Spark、HBase与Redis的适用性见解
由于没有机会对Hadoop、Spark、HBase与Redis的各个特性进行测试,所以在网络上找到了这篇文章,说说Hadoop、Spark、HBase与Redis的适用性问题。 转自 http://datainsight.blog.51cto.com/8987355/1426538 问题导读: 1.你认为Hadoop适用什么场景? 2.Spark适用于什么场景? 3.HBase与转载 2015-04-04 23:00:53 · 3519 阅读 · 0 评论 -
HBase rowkey设计-热点问题
当处理由连续事件得到的数据时,即时间上连续的数据。这些数据可能来自于某个传感器网络、证券交易或者一个监控系统。它们显著的特点就是rowkey中含有事件发生时间。带来的一个问题便是HBase对于row的不均衡分布,它们被存储在一个唯一的rowkey区间中,被称为region,区间的范围被称为Start Key和End Key。 如果将单调递增的时间类型数据作为rowkey,valu原创 2015-03-25 15:48:58 · 5200 阅读 · 0 评论 -
HBase scan setBatch和setCaching的区别
HBase的查询实现只提供两种方式: 1、按指定RowKey获取唯一一条记录,get方法(org.apache.hadoop.hbase.client.Get) 2、按指定的条件获取一批记录,scan方法(org.apache.hadoop.hbase.client.Scan) 实现条件查询功能使用的就是scan方式,scan在使用时有以下几点值得注意: 1、scan可以通过s原创 2015-03-26 15:25:09 · 18235 阅读 · 0 评论 -
hbase设计特点
1.hbase的特点 (1)随机读写操作 (2)大数据上高并发操作,例如每秒PB级数据的数千次的读写操作 (3)读写均是非常简单的操作,例如没有join操作 2.hbase设计推荐方法 (1)更宽的row,更有利于搜索操作。 就是说每一行多存储一些数据,如果以前设计的是一行存储5KB,那么可以改为一行存储30KB,或者更多。当然,column family和colum原创 2015-03-23 23:04:41 · 720 阅读 · 0 评论 -
(转)基于MapReduce的HBase开发
在伪分布式模式和全分布式模式下 HBase 是架构在 HDFS 上的,因此完全可以将MapReduce 编程框架和 HBase 结合起来使用。也就是说,将 HBase 作为底层“存储结构”,MapReduce 调用 HBase 进行特殊的处理,这样能够充分结合 HBase 分布式大型数据库和MapReduce 并行计算的优点。 相对应MapReduce的hbase实现类: 1)Inp转载 2015-03-22 19:18:40 · 515 阅读 · 0 评论 -
(转)基于MapReduce的HBase开发(续)
示例 代码: [java] view plaincopy import java.io.ByteArrayOutputStream; import java.io.DataOutputStream; import java.io.IOException; import java.util.HashMap;转载 2015-03-22 21:46:39 · 442 阅读 · 0 评论 -
(转)Hbase访问方式之Mapreduce
概述: Hbase对Mapreduce API进行了扩展,方便Mapreduce任务读写HTable数据。 一个简单示例: 说明:从日志表中,统计每个IP访问网站目录的总数 [java] view plaincopy package man.ludq.hbase; impor转载 2015-03-22 19:04:58 · 468 阅读 · 0 评论 -
(转)MapReuce 编程总结-多MapReduce执行
今天看到了一个挺好的文章,跟大家分享一下,转载地址为 http://blog.csdn.net/weijonathan/article/details/12582759 学习hadoop,必不可少的就是写MapReduce程序,当然,对于简单的分析程序,我们只需一个MapReduce就能搞定,这里就不提单MapReuce的情况了,网上例子很多,大家可以百度Google一下。对于比较复杂的分析转载 2015-01-29 15:48:08 · 879 阅读 · 0 评论 -
Hbase客户端的写缓冲区和put列表
写缓冲区 HBase每次的put操作,都是一次rpc操作,如果某个应用程序每秒钟有1000+的put操作,那显然是不合适的。 HBase的客户端API中配置了一个写缓冲区,缓冲区负责收集put操作,达到一定条件后,调用一次rpc操作,将全部的缓冲数据发送到服务器端。 void setAutoFlush(boolean autoFlush) boolean isAutoFlu原创 2015-04-05 18:30:34 · 3508 阅读 · 0 评论