Spark
哈士奇说喵
我的目标是星辰大海啊~
展开
-
SparkSql中时间阈操作【窗口函数】
本文主要总结了一些sql在时间阈上的操作,包括连续消费,最长签到,累计消费等问题,其实映射到其他业务场景也就变成了类似的计算;如游戏领域,连续登陆时间,连续签到时长,最大连续签到天数等常见的业务场景;方法都是共通的,这里就用sparksql来实现一些方法,hivesql的话有部分代码可能需要略微修改,比如having这种需要外面再套一层改成where等等就不再赘述构造数据进行测试为了比较好切割,我就用@进行拼凑了,第一个是日期,第二个是用户,第三个是否消费,第四个为消费金额20190531@156.原创 2020-06-17 15:01:14 · 1738 阅读 · 1 评论 -
SparkSql 2.2.x 中 Broadcast Join的陷阱(hint不生效)
问题描述使用hint指定广播表,却无法进行指定广播;前期准备hive> select * from test.tmp_demo_small;OKtmp_demo_small.pas_phone tmp_demo_small.age156 20157 22158 15hive> analyze table test.tmp_demo_small compute s...原创 2020-01-17 21:09:03 · 5905 阅读 · 2 评论 -
Spark RDD Lazy Evaluation的特性及作用
看一些博客都是轻描淡写的说一下这是spark的特性,延迟/惰性计算(lazy evaluation)就完事了,然后各个博客之间抄来抄去就是那么几句话,所以就想着把这些东西整理一下讲清楚,希望对有需要的朋友有所帮助。主要为了解决3个疑问rdd的弹性表现在哪 ?什么是spark lazy 特性 ?spark lazy evaluation 的好处都有什么 ?rdd的弹性表现在哪那就...原创 2019-08-26 15:46:27 · 3394 阅读 · 2 评论 -
spark-submit 提交python外部依赖包
需求:使用pyspark的过程中,发现集群的python并没有安装自己需要的包,比如elasticsearch包等,这样就只能靠自己把包打上,然后才能被分发到集群的各台节点机器上,然后被执行,这里举个例子,如何加载自己的外部包1.创建模块构建 spark_submit.py# -*- coding:utf-8 -*-def spark_submit_test(key): re...原创 2019-02-01 12:24:42 · 13642 阅读 · 1 评论 -
总结:Spark性能优化上的一些总结
Spark性能调优 整理来自于: Spark性能优化指南——基础篇 会增加: 一些其他博客的内容 自己的理解和pyspark代码的补充实践 开发调优 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设原创 2017-08-13 10:33:58 · 2421 阅读 · 0 评论 -
总结:Hive,Hive on Spark和SparkSQL区别
Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结Hive on Mapreduce执行流程 执行流程详细解析Step 1:UI(user interface) 调用 executeQuery 接口,发送 H原创 2017-08-04 22:36:07 · 44819 阅读 · 1 评论 -
pyspark中combineByKey的两种理解方法
Spark 1.6 以前一直模模糊糊的,现在搞一下比较清楚combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitionFunc=<function portable_hash at 0x7f1ac7340578>)它是一个泛型函数,主要完成聚合操作,将输入RDD[(K,V)]转化为原创 2017-07-21 13:40:39 · 3319 阅读 · 0 评论 -
笔记:新手的Spark指南
macOS Sierra 10.12.4Spark 1.6.2Python 2.7转载请注明出处:前言 既然做了Hive的整理,那就把spark的也整理下吧,当做入门指南和自己的笔记吧~与君共勉Spark基础Spark是什么? Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。如果你熟悉Hadoop,那么你知道分布式计算框架要解决两个问题:如何原创 2017-07-25 17:21:43 · 2207 阅读 · 1 评论 -
Spark日志清洗一般流程
spark 1.6.1 python 2.7.11前言 整理了一下使用spark来进行日志清洗及数据处理的套路,这里以pyspark为例pyspark的启动任务套路 对于使用spark作为查询清洗工具而言,启动spark的套路主要使用sh文件进行终端带参数启动,启动后开始调用sh传递处理参数,并且构造好sparkconf后传递提交(spark-submit) python文件,当然最主要原创 2017-05-14 20:16:33 · 5117 阅读 · 0 评论 -
解决:win远程连接ubuntu服务器安装jupyter,启动pyspark
ubuntu 16.1.4 win10 x64 X-shell5 目的 win主机远程访问ubuntu服务器,并启动服务器端jupyter在本地进行python和spark调试步骤 我不做重复性工作,翻阅了很多很多博客,最后的解决方案在这里,多谢@Xmo_jiao基于pyspark和scalaspark的jupyter notebook 安装如果按照步骤走失败的请看这里,这里需要注意原创 2017-06-06 22:28:17 · 2414 阅读 · 0 评论 -
解决:spark启动错误Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apach..
MacOS:Sierra 10.12.2 Spark版本:2.1.0 今天想在本地安装spark,结果按照步骤来竟然报错,问题原因spark 2.1.0需要java 7+的支持,但是Mac默认的java 是1.6的,导致运行失败,解决方案也很简单,到官网下载最新的Java JDK和JRE安装好即可,当时我只下载了jre,结果还是不行,傻逼了,下了jdk后安装好就可以了,具体安装过程如下4步ma原创 2017-03-19 16:57:17 · 20079 阅读 · 1 评论