解决Map Reduce读取编码为UTF-8的文件文件时，第一条数据总出错的问题

最新推荐文章于 2021-02-16 02:54:27 发布

SemanticWang

最新推荐文章于 2021-02-16 02:54:27 发布

阅读量144

点赞数

分类专栏： Map Reduce Hadoop 文章标签： hadoop java

本文链接：https://blog.csdn.net/roufenghust/article/details/84418708

版权

Map Reduce 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

Hadoop

8 篇文章 0 订阅

订阅专栏

[size=medium]hadoop涉及文件编码时，统一用UTF-8，但是当读取带有BOM的文件时，第一条数据由于包含BOM，hadoop并没有去掉，因此第一条数据处理结果总是出现误差，为了解决此问题，只需将BOM从map阶段去掉即可，如下代码：[/size]


protected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {
   byte[] bytes = value.getBytes();
   if(bytes!=null && bytes.length>2 && bytes[0]==(byte)0xEF && bytes[1]==(byte)0xBB && bytes[2]==(byte)0xBF){
	  value = new Text(Arrays.copyOfRange(bytes, 3, bytes.length)); // 去掉BOM
   }
...
}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SemanticWang

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
解决Map Reduce读取编码为UTF-8的文件文件时，第一条数据总出错的问题

[size=medium]hadoop涉及文件编码时，统一用UTF-8，但是当读取带有BOM的文件时，第一条数据由于包含BOM，hadoop并没有去掉，因此第一条数据处理结果总是出现误差，为了解决此问题，只需将BOM从map阶段去掉即可，如下代码：[/size][code="java"]protected void map(LongWritable key, Text value, ...
复制链接

扫一扫