大数据
biaorger
这个作者很懒,什么都没留下…
展开
-
解决MapReduce数据倾斜
阅读本文可以带着下面问题:1.map /reduce程序卡住的原因是什么?2.根据原因,你是否能够想到更好的方法来解决?(企业很看重个人创作力)map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节转载 2014-08-05 23:59:09 · 21236 阅读 · 0 评论 -
Hive内置row_number
语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号。 示例: xlh row_num 1700 1 1500 2 ...转载 2014-08-12 23:05:20 · 45411 阅读 · 0 评论 -
Hadoop中文问题
[复制链接]问题导读:1.Hadoop开发中如何设置编码,你了解有几种?2.mapredue为什么要进行压缩?3.reduce个数如何设置才最合适?Hadoop版本不断升级,但是有时候,我们依然会遇到下面问题。1 中文问题 从url中解析出中文,但hadoop中打印出来仍是乱码?我们曾经以为hadoop是不支持中文的,后来经过查看源代码,发现hadoop仅仅是不支持以gbk格式输出中文而己。 这是转载 2014-08-15 13:04:25 · 1044 阅读 · 0 评论 -
MapReduce计算过程中的压缩和效率的对比问题
为什么压缩会提高计算速度?这是因为mapreduce计算会将数据文件分散拷贝到所有datanode上,压缩可以减少数据浪费在带宽上的时间,当这些时间大于压缩/解压缩本身的时间时,计算速度就会提高了。 hadoop的压缩除了将输入文件进行压缩外,hadoop本身还可以在计算过程中将map输出以及将reduce输出进行压缩。这种计算当中的压缩又有什么样的效果呢? 测试环境:转载 2014-08-15 13:12:28 · 1101 阅读 · 0 评论 -
关于reduce的数量设置问题
reduce数量究竟多少是适合的。目前测试认为reduce数量约等于cluster中datanode的总cores的一半比较合适,比如cluster中有32台datanode,每台8 core,那么reduce设置为128速度最快。因为每台机器8 core,4个作map,4个作reduce计算,正好合适。 附小测试:对同一个程序 reduce num=32,re转载 2014-08-15 13:16:54 · 1033 阅读 · 0 评论