自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 小文件转换成SequenceFile

Hadoop的HDFS和MapReduce框架主要是针对大数据文件设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器,将这些小文件组织起来统一存储。HDFS 提供了两种类型的容器,分别是SequenceFile和MapFile。这里介绍如何实现将多个小文件转换成Sequ...

2019-11-29 22:49:17 262

原创 hadoop伪分布式环境搭建

实验环境Fedora301安装Java(1)安装OpenJDK 8 JRE,使用命令sudo dnf install java-1.8.0-openjdk(2)安装OpenJDK 8 JDK,使用命令sudo dnf install java-1.8.0-openjdk-develJRE(java runtime environment),JDK( java development k...

2019-11-16 21:58:04 91

翻译 自定义RecordReader和FileInputformat,将文件名作为Map的输入key,文件内容作为May的输入value

自定义RecordReader和FileInputformat,将文件名作为Map的输入key,文件内容作为May的输入valuepackage com.gopivotal.mapreduce.lib.input;import java.io.IOException;import org.apache.hadoop.fs.FSDataInputStream;import org.apa...

2019-11-11 09:32:34 230

转载 hadoop hdfs put上传大量文件时出现错误

hadoop hdfs put上传大量文件时出现错误执行命令:bin/hdfs dfs -put -d etc/hadoop/tmpInputFile/BayesFiles/trainClassFiles /user/input_12019-11-10 17:03:31,380 WARN hdfs.DataStreamer: Caught exceptionjava.lang.Inte...

2019-11-10 22:28:23 1574 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除