mapreduce
Cumu_
这个作者很懒,什么都没留下…
展开
-
学习用pyhon写hive udf
1. 最近有个需求是找出一批一年内每个月连续交易额超过10000元的商户,经过hive的一些操作最后数据如下(已省略不需要的字段): m, p, consume, cnt m和p唯一标记商户,consume是12个月的交易额(逗号分割),cnt不用管2. 分析得知用hive原生的一些函数不好处理,那么想到了udf,本来想用java写的,但是java有太多依赖包了,刚好在学python原创 2015-01-20 20:04:54 · 10543 阅读 · 0 评论 -
python利用多核CPU实现mapreduce
1. 最近公司用有个比较奇怪的需求,需要在流水中查找某一条符合条件的流水记录,记录是在hdfs上的,按天存在文件中,但是文件都比较大,每天大概是25G的流水数据,现在提供刷卡回执单去查找该消费记录在我们hdfs上的对应的记录,从而可以找到某个信息(不能说是哪个。。。。)2. 刷卡回执单我们可以找到卡号前6位、后四位,消费的时间,消费的金额,最初我是用管道来一行行排除的,就是cat xxx |原创 2015-01-19 20:36:49 · 3378 阅读 · 0 评论 -
spark学习7-mllib als推荐引擎学习
继续上一篇学习spark本次将介绍下如何利用mllib进行商品或者用户的推荐,具体用到的算法是ALS(交替二乘法)推荐算法介绍推荐算法可以分为:UserCF(基于用户的协同过滤)、ItemCF(基于商品的协同过滤)、ModelCF(基于模型的协同过滤),具体介绍见:http://blog.csdn.net/ygrx/article/details/15501679spark中的协同原创 2015-10-15 16:26:36 · 9804 阅读 · 1 评论 -
spark学习2-join
继续上一篇学习spark本次将介绍如何用spark进行join的操作,首先join是分map side join和reduce side join,下面将分别介绍下这2个操作在spark中如何进行map side join其实就是将较小的表放入到内存,利用spark的广播机制broadcast出去,这样就缓存在内存中,直接上代码 val conf = new SparkCon原创 2015-10-13 11:00:59 · 1681 阅读 · 0 评论 -
spark学习3-CountOnce
继续上一篇的学习spark本次将介绍下CountOnce,假设现在一个场景,有一堆数字,其中只有一个数据是出现一遍的,其他数据都出现两次,如何快速找到出现一次的数据算法利用异或的特性,异或具有交换率,偶数次出现的数字异或是0,奇数次出现的异或后就是本身,假设这堆数据比较庞大,用spark来查找是很方便的,代码如下:val conf = new SparkConf()原创 2015-10-13 14:11:42 · 1134 阅读 · 0 评论 -
spark学习4-倾斜数据join
继续上一篇学习spark本次将介绍join发生了数据倾斜之后的一种解决方法数据倾斜出现的原因并行计算中,我们总希望分配的每一个任务(task)都能以相似的粒度来切分,且完成时间相差不大。但是由于集群中的硬件和应用的类型不同、切分的数据大小不一,总会导致部分任务极大地拖慢了整个任务的完成时间,数据倾斜原因如下:1) 业务数据本身的特性。2) Key分布不均匀。3) 建表时考虑原创 2015-10-13 18:43:01 · 4457 阅读 · 0 评论 -
spark学习6-spark模拟hive的列转行和行转列
继续上一篇学习spark本次将通过一个实际场景来综合学习下spark如何实现hive中的列转行和行转列(关于hive的)列转行和行转列介绍见:http://blog.csdn.net/jthink_/article/details/38853573)问题描述假设我们有这样的交易记录,如下:@6259656412068037 @822039695680011 7230 366.0原创 2015-10-14 09:47:09 · 8096 阅读 · 0 评论 -
spark学习5-spark基础总结
继续上一篇学习spark本次将综合运用spark的基础知识来解决一个实际问题问题描述假设有这样的数据(很多),第一个字段表示id,第二个字段表示type(type 只有01和02),第三个字段表示月份(只有7月和8月)1 012015-072 01 2015-072 01 2015-072 02 2015-082 02 2015-083 02 2015-08原创 2015-10-13 20:06:30 · 1786 阅读 · 0 评论 -
不等key的reduce
场景描述 假设有这样的场景,现在需要计算文章标题的相似度,具体算法见http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html。接下去算下的结果为:标题相似度值A13B14C15原创 2015-12-15 14:17:03 · 901 阅读 · 0 评论