hadoop
chaoping315
这个作者很懒,什么都没留下…
展开
-
Ways to write & read HDFS files
Ways to write & read HDFS files - Output Stream FSDataOutputStream dos = fs.create(new Path("/user/tmp"), true); dos.writeInt(counter); dos.close(); - Buffered Writer/Reader转载 2012-07-10 22:01:10 · 1102 阅读 · 0 评论 -
Hadoop MapReduce中如何处理跨行Block和UnputSplit
Hadoop的初学者经常会疑惑这样两个问题:1.Hadoop的一个Block默认是64M,那么对于一个记录行形式的文本,会不会造成一行记录被分到两个Block当中?2.在把文件从Block中读取出来进行切分时,会不会造成一行记录被分成两个InputSplit,如果被分成两个InputSplit,这样一个InputSplit里面就有一行不完整的数据,那么处理这个InputSplit的Mapper会不转载 2013-06-26 10:44:22 · 1260 阅读 · 0 评论 -
HBase性能优化方法总结
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这转载 2013-09-17 19:21:58 · 1078 阅读 · 0 评论 -
hadoop MultipleInputs 的使用
MultipleInputs 可以处理不同输入格式的数据, For example, we have two files with different formats: (1) First file format: VALUE (2) Second file format: VALUE ADDITIONAL In order to read翻译 2014-03-26 11:44:36 · 5497 阅读 · 0 评论 -
IDEA中配置hadoop开发环境
IDEA中整合hadoop开发环境 前言: hadoop程序运行在分布式环境下,运行调试MapReduce只需要对应的hadoop相应的依赖jar包就可以,下面以是在伪分布模式下hadoop程序的开发与调试IDEA环境的配置 环境: 操作系统:Ubuntu 16 hadoop: hadoop-3.0.0-alpha2 java: java 1.8 IDEA:idea-原创 2017-12-26 17:54:42 · 25699 阅读 · 1 评论