- 博客(4)
- 收藏
- 关注
原创 小文件转换成SequenceFile
Hadoop的HDFS和MapReduce框架主要是针对大数据文件设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器,将这些小文件组织起来统一存储。HDFS 提供了两种类型的容器,分别是SequenceFile和MapFile。这里介绍如何实现将多个小文件转换成Sequ...
2019-11-29 22:49:17 262
原创 hadoop伪分布式环境搭建
实验环境Fedora301安装Java(1)安装OpenJDK 8 JRE,使用命令sudo dnf install java-1.8.0-openjdk(2)安装OpenJDK 8 JDK,使用命令sudo dnf install java-1.8.0-openjdk-develJRE(java runtime environment),JDK( java development k...
2019-11-16 21:58:04 91
翻译 自定义RecordReader和FileInputformat,将文件名作为Map的输入key,文件内容作为May的输入value
自定义RecordReader和FileInputformat,将文件名作为Map的输入key,文件内容作为May的输入valuepackage com.gopivotal.mapreduce.lib.input;import java.io.IOException;import org.apache.hadoop.fs.FSDataInputStream;import org.apa...
2019-11-11 09:32:34 230
转载 hadoop hdfs put上传大量文件时出现错误
hadoop hdfs put上传大量文件时出现错误执行命令:bin/hdfs dfs -put -d etc/hadoop/tmpInputFile/BayesFiles/trainClassFiles /user/input_12019-11-10 17:03:31,380 WARN hdfs.DataStreamer: Caught exceptionjava.lang.Inte...
2019-11-10 22:28:23 1574 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人