2019年11月_Summer8918

11月 10月 07月 05月 03月 01月

原创小文件转换成SequenceFile

Hadoop的HDFS和MapReduce框架主要是针对大数据文件设计的，在小文件的处理上不但效率低下，而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器，将这些小文件组织起来统一存储。HDFS 提供了两种类型的容器，分别是SequenceFile和MapFile。这里介绍如何实现将多个小文件转换成Sequ...

2019-11-29 22:49:17 262

原创 hadoop伪分布式环境搭建

实验环境Fedora301安装Java(1)安装OpenJDK 8 JRE，使用命令sudo dnf install java-1.8.0-openjdk(2)安装OpenJDK 8 JDK，使用命令sudo dnf install java-1.8.0-openjdk-develJRE（java runtime environment），JDK（ java development k...

2019-11-16 21:58:04 91

翻译自定义RecordReader和FileInputformat，将文件名作为Map的输入key，文件内容作为May的输入value

自定义RecordReader和FileInputformat，将文件名作为Map的输入key，文件内容作为May的输入valuepackage com.gopivotal.mapreduce.lib.input;import java.io.IOException;import org.apache.hadoop.fs.FSDataInputStream;import org.apa...

2019-11-11 09:32:34 230

转载 hadoop hdfs put上传大量文件时出现错误

hadoop hdfs put上传大量文件时出现错误执行命令：bin/hdfs dfs -put -d etc/hadoop/tmpInputFile/BayesFiles/trainClassFiles /user/input_12019-11-10 17:03:31,380 WARN hdfs.DataStreamer: Caught exceptionjava.lang.Inte...

2019-11-10 22:28:23 1574 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 小文件转换成SequenceFile

原创 hadoop伪分布式环境搭建

翻译 自定义RecordReader和FileInputformat，将文件名作为Map的输入key，文件内容作为May的输入value

转载 hadoop hdfs put上传大量文件时出现错误

空空如也

空空如也

原创小文件转换成SequenceFile

翻译自定义RecordReader和FileInputformat，将文件名作为Map的输入key，文件内容作为May的输入value