Hadoop in Action
文章平均质量分 73
super_ozman
这个作者很懒,什么都没留下…
展开
-
Hadoop实战之HBase
一、HBase简介1、HBase--Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库2、利用HDFS作为其文件存储系统,利用MapReduce来处理HBase中的海量数据、利用ZooKeeper来作为其分布式协同服务3、主要用来存储非结构化和半结构化得松散数据二、HBase体系结构HBase的服务器体系结构遵从简单的原创 2015-08-23 09:41:13 · 624 阅读 · 1 评论 -
Hadoop实战之链接MapReduce Job
《Hadoop实战》读书笔记=========链接MapReduce Job1、线性MapReduce Job流将每个Job的启动代码设置成只有上一个Job结束之后才开始执行,然后将Job的输入设置成上一个Job的输出路径.优点:简单直观缺点:不好处理非线性的job流(例如job3需要job1和job2的输出结果组合起来作输入)可能会用到的筛选文件的方法:FileSplit f原创 2015-08-19 13:52:03 · 711 阅读 · 0 评论 -
Hadoop1.x之hdfs
hdfs全称Hadoop Distributed File System(hadoop分布式文件系统)HDFS优缺点:hdfs优点hdfs缺点高容错性 数据自动保存多个副本 副本丢失后自动恢复 适合批处理 移动计算而非数据 数据位置暴露给计算框架 适合大数据处理可构建在廉价机器上 通过多副本提高可靠性 提供了容错和恢复原创 2015-08-10 09:41:02 · 486 阅读 · 0 评论 -
Hadoop实战之MapRduce如何在Job中全局共享数据
1、读写HDFS文件通过利用Hadoop的Java Apl来实现读写HDFS文件,需要注意的是针对多个Map或Reduce的写操作会产生冲突,覆盖原有数据优点:能够实现读写,也比较直观缺点:要共享一些很小的全局数据也需要I/O,将占用系统资源,增加作业完成的资源消耗2、配置Job属性在MapReduce执行过程中task可以读取job属性。基于此,可以在任务启动之初利用Conf原创 2015-08-18 11:17:03 · 1577 阅读 · 0 评论 -
Hadoop实战之温度排序
说明:输入文件为北京市2010年1月份到5月份每天每间隔3小时的温度记录,数据格式为yyyyMMddHHmm temp,如下截图(图中温度为华氏温度)需求:求出每个月份温度最高的5天解决思路:1、以月份+温度为key进行排序,月份升序,温度降序2、每个月份单独生成一个文件,读取每个文件前5条记录,即为每个月份温度最高的5天程序如下import java.i原创 2015-08-17 15:23:52 · 832 阅读 · 0 评论 -
Hadoop实战之hadoop2.5.2完全分布式安装
首先到官网上下载2.5.2的tar包(官网可以直接下的tar包都是32位的,如需64位要下载src.tar.gz自行编译)下载地址:http://hadoop.apache.org/releases.html#18+November%2C+2014%3A+Release+2.6.0+available然后下载ZooKeeper3.4.6稳定版http://www.apache.org/dy原创 2015-08-14 19:30:37 · 414 阅读 · 0 评论 -
Hadoop实战之专利数据处理
运行环境VMware10、CentOS6.6、hadoop1.2.1本实验依照Hadoop in action一书第四章进行首先拿到专利数据:http://data.nber.org/patents/,并上传到hdfs中本文使用是的cite75-99.txt,该文件涵盖了自1975年到1999年间对美国专利的引用,包含超过1600万条数据,前几行如下图:其中第一列为专利号、原创 2015-08-14 09:39:42 · 1072 阅读 · 0 评论 -
HBase之表的设计原则
1、列族的数量及列族的势建议将HBase列族的数量设置的越少越好。当强,对于两个或两个以上的列族HBase并不能处理的很好。这是由于HBase的Flushing和压缩是基于Region的。当一个列族所存储的数据达到Flushing的阈值时,该表中所有列族将同时进行Flushing操作。这将带来不必要的I/O开销,列族越多,该特性带来的影响越大。此外,还要考虑到同一个表中不同列族所存储的记录原创 2015-08-28 14:54:15 · 6067 阅读 · 0 评论 -
Hadoop之HDFS文件操作
Hadoop的文件命令采取的形式为:hadoop fs -cmd args>其中cmd是具体的文件命令,而args>是一组可变的参数。cmd的命名通常与Linux对应的命名相同。1、添加文件和目录原创 2015-08-12 15:06:10 · 399 阅读 · 0 评论 -
HBase之Java API实操
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.原创 2015-08-27 10:47:05 · 385 阅读 · 0 评论 -
【转】HBase性能优化方法总结(4):读表操作
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第三部分内容:读表操作相关的优化方法。3. 读表操作3.1 多HTable并发读创建多个HTable客户端用于读操作,提高读数据的吞吐量,一个例子: static final Configuration conf转载 2015-08-26 11:06:09 · 275 阅读 · 0 评论 -
HBase之Java API
重点介绍与HBase数据存储管理相关的内容,其涉及的类主要包括:HBaseAdmin、HBaseConfiguration、HTable、HTableDescriptor、Put、Get和Scanner。关于Java API的详细内容可以查看http://hbase.apache.org/apidocs/index.html相关类与HBase数据模型之间的对应关系原创 2015-08-26 20:25:47 · 503 阅读 · 0 评论 -
【转】HBase性能优化方法总结(1):配置优化
配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优:转载 2015-08-26 10:59:25 · 422 阅读 · 0 评论 -
ZooKeeper伪分布式安装
转自http://www.cnblogs.com/haippy/archive/2012/07/19/2599989.html简介Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来,现在已经成为了 Apache 的顶级项目。Zookeeper 为分布式系统提供了高效可靠且易于使用的协同服务,它可以为分布式应用提供相当多的服务,诸如转载 2015-08-26 15:42:45 · 371 阅读 · 0 评论 -
【转】HBase性能优化方法总结(3):写表操作
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第二部分内容:写表操作相关的优化方法。2. 写表操作2.1 多HTable并发写创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子: static final Configuration conf转载 2015-08-26 11:04:22 · 311 阅读 · 0 评论 -
【转】HBase性能优化方法总结(2):表的设计
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容:表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个re转载 2015-08-26 11:02:18 · 346 阅读 · 0 评论 -
hadoop实战之HDFS常用JavaAPI
1、使用URL读取数据import java.io.IOException;import java.io.InputStream;import java.net.MalformedURLException;import java.net.URL;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Fs原创 2015-08-20 14:42:45 · 532 阅读 · 0 评论