hadoop
chaoping315
这个作者很懒,什么都没留下…
展开
-
Ways to write & read HDFS files
Ways to write & read HDFS files - Output Stream FSDataOutputStream dos = fs.create(new Path("/user/tmp"), true); dos.writeInt(counter); dos.close();- Buffered Writer/Reader转载 2012-07-10 22:01:10 · 1092 阅读 · 0 评论 -
Hadoop MapReduce中如何处理跨行Block和UnputSplit
Hadoop的初学者经常会疑惑这样两个问题:1.Hadoop的一个Block默认是64M,那么对于一个记录行形式的文本,会不会造成一行记录被分到两个Block当中?2.在把文件从Block中读取出来进行切分时,会不会造成一行记录被分成两个InputSplit,如果被分成两个InputSplit,这样一个InputSplit里面就有一行不完整的数据,那么处理这个InputSplit的Mapper会不转载 2013-06-26 10:44:22 · 1256 阅读 · 0 评论 -
HBase性能优化方法总结
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这转载 2013-09-17 19:21:58 · 1064 阅读 · 0 评论 -
hadoop MultipleInputs 的使用
MultipleInputs 可以处理不同输入格式的数据,For example, we have two files with different formats:(1) First file format:VALUE(2) Second file format:VALUE ADDITIONALIn order to read翻译 2014-03-26 11:44:36 · 5485 阅读 · 0 评论 -
IDEA中配置hadoop开发环境
IDEA中整合hadoop开发环境前言:hadoop程序运行在分布式环境下,运行调试MapReduce只需要对应的hadoop相应的依赖jar包就可以,下面以是在伪分布模式下hadoop程序的开发与调试IDEA环境的配置环境:操作系统:Ubuntu 16hadoop: hadoop-3.0.0-alpha2java: java 1.8IDEA:idea-原创 2017-12-26 17:54:42 · 25228 阅读 · 1 评论