![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
lgdlxc
<a href='http://bigdataer.net'>个人主页</a>
展开
-
hive表数据导出到csv乱码原因及解决方案
hive表中的数据使用hive - e"select * from table">aa.csv导出到csv文件的时候在window中用Excel打开查看的时候是乱码,而且格式也不对。原因有下面两个:1.乱码的原因是用excel打开csv时格式默认为gbk,但是从hive中导出来的是utf8的2.格式不对的原因是csv文件的列分隔符是逗号或者\t,而hive中默认使用\001原创 2014-12-24 17:46:34 · 15436 阅读 · 1 评论 -
hadoop自定义数据类型
Hadoop的基本数据类型是基于对Java的基本数据类型的封装,如int对应IntWritable,Long对应LongWritable。和Java中自定义数据类型一样,某些时候我们也会在Hadoop中创建自定义数据类型。Hadoop中自定义数据类型必须实现WritableComparable接口举例:import java.io.DataInput;import java.io原创 2015-11-13 17:25:27 · 1110 阅读 · 0 评论 -
Hadoop分布式缓存(DistributedCache)
概述DistributedCache是hadoop框架提供的一种机制,可以将job指定的文件,在job执行前,先行分发到task执行的机器上,并有相关机制对cache文件进行管理.DistributedCache 可将具体应用相关的、大尺寸的、只读的文件有效地分布放置。DistributedCache 是Map/Reduce框架提供的功能,能够缓存应用程序所需的文件 (包括文本,档案文件,原创 2015-11-14 20:17:29 · 3335 阅读 · 0 评论 -
Hadoop多路径输出(MultipleOutputs)
使用Hadoop进行数据处理时,有时候需要将计算结果根据不同的条件存入不同的分区。比如:计算顾客是否回头购买的时候,会将回头了的顾客数据和未回头的顾客数据分别存入不同的表。可以使用MultipleOutputs实现。需要在reduce类中定义MultipleOutputs,并且重写Reducer的setup()方法和cleanup()方法。具体实例如下public static c原创 2015-11-16 17:51:01 · 1042 阅读 · 0 评论 -
如何成为一名大数据开发工程师
版权申明:转载请注明出处。 文章来源:http://bigdataer.net/?p=2391.关于我本人现在北京某大型互联网公司高级数据开发工程师一枚,三年工作经验,一年多面试官经验。2.为啥要写这篇文章?面试中经常会遇到这种情况:之前专心写web的Java码农突然转型想做大数据了,然后写几个大数据的项目经验跑来面试,结果就是一问三不知,还有好多人只是搭了个Hadoop环境就说自己是搞大数原创 2017-03-13 11:07:50 · 24669 阅读 · 2 评论