spark
文章平均质量分 74
死亡之翼归来
行走世间,都是怪物。
展开
-
spark支持深度学习批量推理
在数据量较大的业务场景中,spark在数据处理、传统机器学习训练、深度学习相关业务,能取得较明显的效率提升。本篇围绕spark大数据背景下的推理,介绍一些优雅的使用方式。原创 2023-08-31 20:11:24 · 1152 阅读 · 0 评论 -
数据管理之特征仓库
feast特征仓库原创 2023-02-20 20:13:46 · 743 阅读 · 1 评论 -
Spark On Yarn的两种模式解析
使用yarn能对spark的运行资源调动进行动态划分,spark on yarn有yarn-client和yarn-cluster两种模式。这两种模式的作业虽然都运行在yarn上,但是运行方式不一样;下面解析一下这两种模式下提交作业到运行的全过程。运行中涉及到的名词Application: Appliction都是指用户编写的Spark应用程序,其中包括一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码Driver: Spark中的Driver即运行上述Applicatio原创 2020-05-24 16:41:52 · 712 阅读 · 1 评论 -
jupyter平台中用户如何自定义magic
Magic Command简介Jupyter magic 命令形似%abc(line magic), %%abc(cell magic)我们常用的画图命令%matplotlib就是一种magic命令。magic命令是对jupyter功能的扩展,使用magic能简化在jupyter做实验编写代码工作,解决重复代码操作、新人编写和理解功能模块困难等问题。自定义Magic的方式目前官方推荐的有“...原创 2020-02-18 11:09:27 · 1008 阅读 · 0 评论 -
Spark Streaming任务中的容错机制盘点
spark之checkpoint原创 2019-11-04 11:30:23 · 553 阅读 · 0 评论 -
Spark DataFrame中使用window 函数报oom错误
故障发生背景和错误日志现有如下任务:多个小表与大表join后新产生的表有很多空值,使用window函数对空值进行分组填充。任务中途中中断,抛出oom错误。截取抛出来的主要的错误日志,日志的内容如下:19/05/16 10:11:39 WARN TaskMemoryManager: leak 32.0 KB memory from org.apache.spark.shuffle.sort....原创 2019-05-31 23:50:55 · 1933 阅读 · 0 评论 -
Spark内存分配和管理模式
本文分为2个部分:第一部分介绍了Spark的内存分配和管理模式,第二部分是第一部分的运用,介绍了Spark UI中显示的Storage Memory含义。内存管理原理在执行Spark任务时,集群会启动Driver和Executor两种JVM进程,两个进程有各自的使命,但是内存管理模式却是一模一样。以下进程的内存管理均以Executor进程为例。进程的内存管理基于JVM,所以默认包括On-He...原创 2019-05-09 15:33:28 · 917 阅读 · 0 评论 -
pyspark dataframe之udf
PySpark UDF概念引出在pandas中自定义函数,通过遍历行的方式,便捷实现工程师的需求。但是对于数据量较大的数据处理,会出现速度过慢甚至超内存的问题。Spark作为替代pandas处理海量数据的工具,参照 pandas udf 定义了名为PandasUDFType的类,通过自定义函数的方式spark处理数据的灵活度和高效率有很大亮点。从spark 1.3到2.3udf函数有row-a...原创 2019-02-14 11:09:12 · 13402 阅读 · 0 评论 -
Spark DataFrame 与Pandas DataFrame差异
Spark DataFrame 与Pandas DataFrame差异为何使用pyspark dataframepandas dataframe数据结构特性spark dataframe结构与存储特性spark toPandas详解参考文献为何使用pyspark dataframe使用pandas进行数据处理,dataframe常作为主力军出现。基于单机操作的pandas datafram...原创 2019-01-10 16:10:14 · 2449 阅读 · 0 评论