Spark
文章平均质量分 71
分布式内存计算框架
不秃不强就很帅
不秃也不强
展开
-
spark-sql骚技巧-sql结果参数化
纯sql无代码,sql结果赋值给变量,实现参数化当我们在公司的开发平台上写些sql数据分析时,发现经常会遇到不同sql使用同一参数的情况,比如计算比率要计算总数,总数被多次使用,或者每次要传入where day=date_format(date_sub(current_date(), 1), ‘yyyyMMdd’)这样的日期条件,这时可不可以将总数参数化,这样只要算一次,可以提升效率和sql颜值呢?经过研究hive sql的参数化,总结出spark-sql的纯sql写法,下面是spark3.1.2环境原创 2021-09-14 10:55:18 · 2416 阅读 · 0 评论 -
apache kylin4.0安装与使用
apache kylin4.0安装与使用kylin4.0优势kylin4.0架构大调整,去除了Hbase,改用hdfs parquet文件作为底层数据存储层,无需指标rowkey编码计算及查询引擎统一,采用spark,支持spark3.1,所以cube计算查询效率比kylin3.0直接提升一倍,稳定性也高很多存储的cube计算数据占用空间比hbase少一倍简单查询跟3.x版本性能差不多,但对应复杂查询,性能成倍数提升(parquet及目录分区过滤)综上,随着kylin4.0稳定版本发布,没有不升原创 2021-09-11 19:14:33 · 3747 阅读 · 11 评论 -
pyspark3.1异常: Python worker failed to connect back
pyspark环境配置报错解决异常描述环境:win10, spark3.1.2版本,hadoop3.3.1,java1.8在pycharm或直接在pyspark shell环境中执行如下测试代码报错:pyspark3.1: Python worker failed to connect backfrom pyspark.sql import SparkSessionfrom pyspark.sql.types import StructType, StructField, LongType, S原创 2021-07-19 15:29:08 · 4978 阅读 · 4 评论 -
Spark BulkLoad批量读写Hbase
Spark BulkLoad批量读写HbaseSpark读写Hbase,不要使用put逐条数据插入,效率太低了,要使用批量导入的方式!要分Hbase版本来做不同处理:Hbase 1.x版本依赖:<!-- spark2.x依赖省略 ---> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client<原创 2021-02-28 00:32:57 · 1592 阅读 · 0 评论 -
VS Code下的Spark(Scala)开发
VS Code下的Spark(Scala)开发IntelliJ IDEA下开发Scala应用很智能,体验很好,但正版费用极高,为了避免版权收费问题,考虑使用开源免费的IDE,比如Eclipse,VS Code,而且VS Code小而美、功能全、执行快、跨平台,所以使用VS Code安装Java JDK 8很简单,不做啰嗦安装Scala官网下载Scala 2.12或2.11,Spark 3.0使用Scala2.12,,Spark3.0之前使用Scala2.11下载安装msi安装包,傻瓜式安装,环境原创 2020-12-24 16:42:05 · 8109 阅读 · 3 评论 -
Spark高阶编程-如何编写高效代码
Spark高阶编程1.Spark源码解析 以下以yarn-client提交sparkPI任务流程为例 执行${SPARK_HOME}/bin/spark-submit 提交任务命令spark-submit --master yarn --deploy-mode client --executor-cores 1 --num-executors 1 --class org.apache.spark.examples.SparkPi ${SPARK_HOME}/examples/jars/s原创 2020-06-12 22:44:19 · 841 阅读 · 0 评论 -
spark读hive没有权限异常Permission denied
sparkSQL读取hive库或表时提示没有权限异常spark@h1:~$ spark-shell 20/03/08 13:29:35 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableSetti...原创 2020-03-08 21:53:58 · 2604 阅读 · 0 评论 -
Spark任务提交与SpringBoot项目集成
Spark任务提交与SpringBoot项目集成原理利用官方提供的SparkLauncher java接口来使用java代码提交Spark任务到Spark集群实现一个SparkPI 的计算demo,并打包成jar新建SpringBoot项目,项目加入spark-core依赖,否则无法找到SparkLuncher <properties> <j...原创 2020-01-02 16:10:51 · 2615 阅读 · 0 评论 -
Spark Dataset操作异常
Spark Dataset操作Set集合异常问题java.lang.UnsupportedOperationException: No Encoder found for scala.collection.immutable.Set[String]说明在使用Spark Dataset时发生,源码: import ss.implicits._ val points = 1000...原创 2019-12-03 19:40:51 · 569 阅读 · 0 评论 -
Hadoop集群配置部署
一、硬件需求 三台虚拟机:ubuntu01 ubuntu02 ubuntu03 vmware workstation 15上创建上面三台ubuntu server 18.04虚拟机二、配置Spark账户互信,免密登陆 1.rsa公钥加密密钥生成 ssh-keygen -t rsa ...原创 2019-09-12 13:56:28 · 169 阅读 · 0 评论 -
Spark GraphX 图计算
源码:https://github.com/NickyWooden/graphx-demo.git给部门内部做的培训1.图论基础点 边 有向图、无向图 度(入度、出度) 环 DAG 联通图 子图2.属性图定义属性图是一个有向多图,每个顶点和边都有用户定义的对象(属性)Vertex(VertexId,顶点属性)Edge(srcVertexId,de...原创 2019-09-12 10:01:51 · 1186 阅读 · 0 评论