hadoop
文章平均质量分 71
Cumu_
这个作者很懒,什么都没留下…
展开
-
hive版本wordcount
1. wordcount程序相当于hadoop MapReduce的一个helloworld程序吧,纯的MR代码如下: a.原创 2014-08-19 21:45:55 · 3332 阅读 · 0 评论 -
spark学习2-join
继续上一篇学习spark本次将介绍如何用spark进行join的操作,首先join是分map side join和reduce side join,下面将分别介绍下这2个操作在spark中如何进行map side join其实就是将较小的表放入到内存,利用spark的广播机制broadcast出去,这样就缓存在内存中,直接上代码 val conf = new SparkCon原创 2015-10-13 11:00:59 · 1696 阅读 · 0 评论 -
spark学习3-CountOnce
继续上一篇的学习spark本次将介绍下CountOnce,假设现在一个场景,有一堆数字,其中只有一个数据是出现一遍的,其他数据都出现两次,如何快速找到出现一次的数据算法利用异或的特性,异或具有交换率,偶数次出现的数字异或是0,奇数次出现的异或后就是本身,假设这堆数据比较庞大,用spark来查找是很方便的,代码如下:val conf = new SparkConf()原创 2015-10-13 14:11:42 · 1144 阅读 · 0 评论 -
spark学习4-倾斜数据join
继续上一篇学习spark本次将介绍join发生了数据倾斜之后的一种解决方法数据倾斜出现的原因并行计算中,我们总希望分配的每一个任务(task)都能以相似的粒度来切分,且完成时间相差不大。但是由于集群中的硬件和应用的类型不同、切分的数据大小不一,总会导致部分任务极大地拖慢了整个任务的完成时间,数据倾斜原因如下:1) 业务数据本身的特性。2) Key分布不均匀。3) 建表时考虑原创 2015-10-13 18:43:01 · 4465 阅读 · 0 评论 -
spark学习5-spark基础总结
继续上一篇学习spark本次将综合运用spark的基础知识来解决一个实际问题问题描述假设有这样的数据(很多),第一个字段表示id,第二个字段表示type(type 只有01和02),第三个字段表示月份(只有7月和8月)1 012015-072 01 2015-072 01 2015-072 02 2015-082 02 2015-083 02 2015-08原创 2015-10-13 20:06:30 · 1795 阅读 · 0 评论 -
spark学习6-spark模拟hive的列转行和行转列
继续上一篇学习spark本次将通过一个实际场景来综合学习下spark如何实现hive中的列转行和行转列(关于hive的)列转行和行转列介绍见:http://blog.csdn.net/jthink_/article/details/38853573)问题描述假设我们有这样的交易记录,如下:@6259656412068037 @822039695680011 7230 366.0原创 2015-10-14 09:47:09 · 8109 阅读 · 0 评论 -
不等key的reduce
场景描述 假设有这样的场景,现在需要计算文章标题的相似度,具体算法见http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html。接下去算下的结果为:标题相似度值A13B14C15原创 2015-12-15 14:17:03 · 910 阅读 · 0 评论 -
CDH5.4.4基于yarn的公平调度器配置
公平调度器介绍简介 公平调度器是一种赋予作业(app)资源的方法,目的是让所有的作业随着时间的推移,都能获得平均的资源。hadoop NG有能力调度多种不同类型的资源(CPU cores、memory)。默认情况下,公平调度器只公平得调度作业memory的使用,但是通过配置我们可以调度memery和CPU。当第一个作业提交到集群上运行时,该作业使用集群的所有资源,这时候别的作业原创 2015-11-30 14:59:09 · 5132 阅读 · 4 评论 -
基于yarn的公平调度实例
场景描述 假设遇到这样的客户,需要在公司内部的集群上进行任务提交运行,客户的任务是每天跑取一些比较简单的mr程序(凌晨提交上来,需要在当天的6点之前运行结束),而公司内部自己需要用集群做相应的计算,计算主要是每个月的月初开始执行,一共100多个mr,大概需要执行半个月(前提是mr一个个得提交,资源利用率比较低下)。为了客户任务和公司内部自己的任务能够并行运行,同时确保在规定的时间内完原创 2015-12-01 17:19:57 · 4337 阅读 · 0 评论 -
hive udf写hbase
最近遇到新的需求,需要将hive脚本运行输出的结果存入hbase,故写出一个通用的hive udf来满足该需求,具体代码如下:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableN原创 2016-02-24 10:36:18 · 2610 阅读 · 3 评论 -
spark学习7-mllib als推荐引擎学习
继续上一篇学习spark本次将介绍下如何利用mllib进行商品或者用户的推荐,具体用到的算法是ALS(交替二乘法)推荐算法介绍推荐算法可以分为:UserCF(基于用户的协同过滤)、ItemCF(基于商品的协同过滤)、ModelCF(基于模型的协同过滤),具体介绍见:http://blog.csdn.net/ygrx/article/details/15501679spark中的协同原创 2015-10-15 16:26:36 · 9835 阅读 · 1 评论 -
学习用pyhon写hive udf
1. 最近有个需求是找出一批一年内每个月连续交易额超过10000元的商户,经过hive的一些操作最后数据如下(已省略不需要的字段): m, p, consume, cnt m和p唯一标记商户,consume是12个月的交易额(逗号分割),cnt不用管2. 分析得知用hive原生的一些函数不好处理,那么想到了udf,本来想用java写的,但是java有太多依赖包了,刚好在学python原创 2015-01-20 20:04:54 · 10559 阅读 · 0 评论 -
Python+Hadoop Streaming实现MapReduce(如何给map和reduce的脚本传递参数)
1. 上一篇我们提到用python 和 hadoop streaming的方式写mapreduce,那么我们怎么向map和reduce的脚本传递参数呢,本来着重讲这个2. 我们知道用java写mapreduce的时候可以传参数给map或者reduce,具体的就是用Configuration去set值,然后在map或者reduce端用get进行获取,这个就不多说了,不是本文重点3. 不多原创 2015-01-15 19:53:40 · 7123 阅读 · 1 评论 -
hive-列转行和行转列
1. 假设我们在hive中有两张表,其中一张表是存用户原创 2014-08-26 21:27:51 · 88547 阅读 · 0 评论 -
hadoop-分布式环境搭建
1. 准备四台机器,操作系统都是Ubuntu 12.04 LTS,j原创 2014-08-16 23:45:12 · 5282 阅读 · 1 评论 -
hadoop+hive-完全分布式环境搭建
http://blog.csdn.net/jthink_/article/details/38622297http://blog.csdn.net/jthink_/article/details/38623585两个连起来原创 2014-08-17 00:19:32 · 5631 阅读 · 0 评论 -
hadoop+hive+zookeeper+hbase全分布式环境配置
1. hadoop: http://blog.csdn.net/jthink_/article/details/386222972. hive:原创 2014-08-17 17:01:13 · 7062 阅读 · 1 评论 -
MapReduce实现Distributed by and sort by
1. 用MR实现hive的Distributed by and sort by使用,如:select * from A distributed by a, b,意思就是根据原创 2014-11-11 20:32:12 · 2544 阅读 · 0 评论 -
MapReduce实现hive join操作
1. hive中join就是一条select语句,其个性原创 2014-10-30 16:08:02 · 4367 阅读 · 0 评论 -
Hive自定义UDF-RowNumber
1. hive0.10及之前的版本没有row_number这个函数,假设我们现在出现如下原创 2014-11-04 19:22:50 · 4049 阅读 · 0 评论 -
Hive 数据倾斜总结
本文转载自:http://blog.csdn.net/lovingprince/article/details/7264549几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得转载 2014-10-21 11:35:52 · 1855 阅读 · 1 评论 -
Python+Hadoop Streaming实现MapReduce(word count)
1. hadoop本身是用java写的,所以用java写mapreduce是比较合适的,然而hadoop提供了Streaming的方式,让很多语言可以来写mapreduce,下面就介绍如何用python写一个mapreduce程序,我们就从最简单的word count写起吧2. word count是比较简单的,所以我们直接上代码,3. map.py#!/usr/bin/env pyt原创 2015-01-15 19:39:49 · 10235 阅读 · 1 评论