Hadoop
SemanticWang
这个作者很懒,什么都没留下…
展开
-
hadoop解决中文输出乱码
[size=medium][b][color=red]hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式[/color][/b],但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为...原创 2013-04-12 11:28:31 · 858 阅读 · 0 评论 -
hadoop解决中文输出乱码(二)
[size=medium] [b]hadoop涉及输出文本的默认输出编码统一用[color=red]没有BOM的UTF-8[/color]的形式[/b],有很多软件只能靠文件的BOM才能成够识别编码为UTF-8的文件,因此当用此类软件打开文件时,显示的是乱码。为了能够正常显示文件内容,在输出内容到文件内之前,先写入BOM(0xEFBBBF)即可。[/size] [size=mediu...2013-04-13 17:37:25 · 838 阅读 · 0 评论 -
解决Map Reduce读取编码为UTF-8的文件文件时,第一条数据总出错的问题
[size=medium]hadoop涉及文件编码时,统一用UTF-8,但是当读取带有BOM的文件时,第一条数据由于包含BOM,hadoop并没有去掉,因此第一条数据处理结果总是出现误差,为了解决此问题,只需将BOM从map阶段去掉即可,如下代码:[/size] [code="java"] protected void map(LongWritable key, Text value, ...原创 2013-04-13 17:47:29 · 159 阅读 · 0 评论 -
下一代 Hadoop YARN 简介
[align=center][size=large]下一代 Hadoop YARN 简介[/size][/align] [size=medium] [b](1) 更快地MapReduce计算[/b] MapReduce仍是当前使用最广泛的计算框架。YARN利用异步模型对MapReduce框架的一些关键逻辑结构(如JobInprogress、TaskInProgress等)进行了重写,相比于M...原创 2013-06-21 09:05:17 · 141 阅读 · 0 评论 -
hadoop解决中文输出乱码
原创 2013-04-12 11:28:31 · 554 阅读 · 0 评论 -
hadoop解决中文输出乱码(二)
件,因此当用此类软件打开文件时,显示的是乱码。为了能够正常显示文件内容,在输出内容到文件内之前,先写入BOM(0xEFBBBF)即可。[/size] [size=medium]Map Reduce运行的结果是一些列文件,通过使用如下函数将输出文件归并到一个文件中:[/size] [code="java"]org.apache.hadoop.fs.FileUtil.copyMerge(FileSystem srcFS, Path srcDir, FileSystem dstFS,2013-04-13 17:37:25 · 355 阅读 · 0 评论 -
解决Map Reduce读取编码为UTF-8的文件文件时,第一条数据总出错的问题
原创 2013-04-13 17:47:29 · 91 阅读 · 0 评论 -
下一代 Hadoop YARN 简介
型对MapReduce框架的一些关键逻辑结构(如JobInprogress、TaskInProgress等)进行了重写,相比于MRv1,具有更快地计算速度。当然,YARN具有向后兼容性,用户在MRv1上运行的作业,无需任何修改即可运行在YARN之上。 [b](2) 对多框架支持[/b] 与MRv1相比,YARN不再是一个单纯的计算框架,而是一个框架管理器,用户可以将各种各样的计算框架移植到YARN之上,由YARN进行统一管理和资源分配,由于将现有框架移植到YARN之上需要一定的工作量,当前YARN仅原创 2013-06-21 09:05:17 · 112 阅读 · 0 评论