spark
Cumu_
这个作者很懒,什么都没留下…
展开
-
Spark学习1-wordcount
闲扯好久没写博客了,大概有半年了,最近半年发生了不少事情,自己毕业两年了,本想跳槽离开的,但是貌似习惯了现在公司的工作习惯,其实是工资涨得还算满意,所以就留下了(说得好没追求啊~)。前段时间我们team的负责人跳槽走了,所有很多技术都需要自己钻研,其实也是一个蛋疼但是提高挺快的过程,最近利用工作之余的时间一直在研究spark,在公司申请了4台机器用CDH搭建了一个集群,包括了Spark,版本貌似是1原创 2015-09-09 15:55:18 · 1405 阅读 · 0 评论 -
spark学习7-mllib als推荐引擎学习
继续上一篇学习spark本次将介绍下如何利用mllib进行商品或者用户的推荐,具体用到的算法是ALS(交替二乘法)推荐算法介绍推荐算法可以分为:UserCF(基于用户的协同过滤)、ItemCF(基于商品的协同过滤)、ModelCF(基于模型的协同过滤),具体介绍见:http://blog.csdn.net/ygrx/article/details/15501679spark中的协同原创 2015-10-15 16:26:36 · 9837 阅读 · 1 评论 -
spark学习2-join
继续上一篇学习spark本次将介绍如何用spark进行join的操作,首先join是分map side join和reduce side join,下面将分别介绍下这2个操作在spark中如何进行map side join其实就是将较小的表放入到内存,利用spark的广播机制broadcast出去,这样就缓存在内存中,直接上代码 val conf = new SparkCon原创 2015-10-13 11:00:59 · 1699 阅读 · 0 评论 -
spark学习3-CountOnce
继续上一篇的学习spark本次将介绍下CountOnce,假设现在一个场景,有一堆数字,其中只有一个数据是出现一遍的,其他数据都出现两次,如何快速找到出现一次的数据算法利用异或的特性,异或具有交换率,偶数次出现的数字异或是0,奇数次出现的异或后就是本身,假设这堆数据比较庞大,用spark来查找是很方便的,代码如下:val conf = new SparkConf()原创 2015-10-13 14:11:42 · 1146 阅读 · 0 评论 -
spark学习4-倾斜数据join
继续上一篇学习spark本次将介绍join发生了数据倾斜之后的一种解决方法数据倾斜出现的原因并行计算中,我们总希望分配的每一个任务(task)都能以相似的粒度来切分,且完成时间相差不大。但是由于集群中的硬件和应用的类型不同、切分的数据大小不一,总会导致部分任务极大地拖慢了整个任务的完成时间,数据倾斜原因如下:1) 业务数据本身的特性。2) Key分布不均匀。3) 建表时考虑原创 2015-10-13 18:43:01 · 4465 阅读 · 0 评论 -
spark学习5-spark基础总结
继续上一篇学习spark本次将综合运用spark的基础知识来解决一个实际问题问题描述假设有这样的数据(很多),第一个字段表示id,第二个字段表示type(type 只有01和02),第三个字段表示月份(只有7月和8月)1 012015-072 01 2015-072 01 2015-072 02 2015-082 02 2015-083 02 2015-08原创 2015-10-13 20:06:30 · 1795 阅读 · 0 评论 -
spark学习6-spark模拟hive的列转行和行转列
继续上一篇学习spark本次将通过一个实际场景来综合学习下spark如何实现hive中的列转行和行转列(关于hive的)列转行和行转列介绍见:http://blog.csdn.net/jthink_/article/details/38853573)问题描述假设我们有这样的交易记录,如下:@6259656412068037 @822039695680011 7230 366.0原创 2015-10-14 09:47:09 · 8110 阅读 · 0 评论 -
不等key的reduce
场景描述 假设有这样的场景,现在需要计算文章标题的相似度,具体算法见http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html。接下去算下的结果为:标题相似度值A13B14C15原创 2015-12-15 14:17:03 · 910 阅读 · 0 评论 -
scala java+spring boot写spark程序骨架
介绍下scala如何配合spring boot框架进行项目开发,由于scala和java一样都是运行在jvm中的,所以和java一样,scala配合spring boot使用几乎和java一样,由于java和scala各有各的特性,处理的场景不同(比如scala天生适合集合的处理),所以有的时候还是需要用java来处理较为方便,所以该骨架中将java和scala一起进行混编,最终打成jar包提供部原创 2017-01-17 15:20:22 · 11033 阅读 · 0 评论