PySpark简明教程
文章平均质量分 67
本教程的目的:打破只有Scala和Java才能开发spark应用程序的思维定势。本教程来源于生产实践,而非象牙塔,实用而简单易学!操练起来~
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
只要开始永远不晚
好好学习,天天向上!
展开
-
Spark bucketing bucket分桶原理和应用
介绍Spark分桶的原理以及如何在数据分析和数据准备中更好的应用分桶。原创 2022-08-24 13:09:04 · 2165 阅读 · 0 评论 -
spark on yarn
本文主要分享一下Spark在Yarn上是如何运行的。原创 2022-08-09 21:39:19 · 502 阅读 · 0 评论 -
Spark shuffle
Shuffle这个词其实可以翻译成『数据重分布』,Shuffle是Spark用于执行数据重分配的机制,以便对数据实现跨分区重新分组操作。这会导致跨执行器和机器的数据复制,因此它是一个复杂且消耗资源的操作。...原创 2022-08-05 17:54:05 · 587 阅读 · 0 评论 -
Spark制作手机号md5彩虹表
使用Spark制作手机号md5彩虹表原创 2022-06-01 08:00:00 · 1054 阅读 · 0 评论 -
Spark自定义UDF 自定义函数
本文包含 Python 用户定义函数 (UDF) 示例。 它展示了如何注册 UDF、如何调用 UDF 以及有关 Spark SQL 中子表达式的计算顺序的注意事项。原创 2021-12-03 21:05:15 · 229 阅读 · 0 评论 -
PySpark简明教程 04 Spark加载csv文件parquet文件等数据源
本文主要讲解spark加载数据源的方法,以加载固定分隔符文件开始到加载hive表、列式存储格式文件,深入浅出熟练掌握spark加载各种数据源的技巧。穿插讲解实际应用中经常遇到的情况如:处理有无列头行、特殊分隔符、读取模式、自动推测数据源字段类型、自定义数据源类型、读取hive表,去读parquet列式存储、处理压缩文件等。原创 2021-06-17 19:12:56 · 182 阅读 · 0 评论 -
PySpark简明教程 03 SparkSQL、DataFrame和SparkSession
介绍一下Spark两个重要概念:SparkSQL和DataFrame原创 2021-06-15 19:37:36 · 526 阅读 · 3 评论 -
PySpark简明教程 02 pyspark实战 入门例子
以一个处理结构化数据的入门程序,带大家进入pyspark的大门。本例子以深圳股市的股息率分析为例,讲解spark的输入、分析计算和输出。原创 2021-06-01 10:58:29 · 2456 阅读 · 0 评论 -
解决Number of partitions scanned (=2001) on table ‘tablexx‘ exceeds limit (=2000)
Spark扫描数据时,如何突破对于扫描分区数量的限制!原创 2021-05-10 17:19:07 · 1453 阅读 · 0 评论 -
python读parquet文件 pandas读parquet文件
用python读parquet格式的文件原创 2021-05-08 16:30:36 · 29996 阅读 · 2 评论 -
PySpark简明教程 01专栏简介
简明:意思是简单而明了。PySpark:就是用Python这门语言工具去驾驭Spark这个大数据计算引擎。原创 2021-04-24 10:33:03 · 235 阅读 · 0 评论 -
Hive分区和分桶的区别和优缺点
彻底搞懂 hive分区表 hive分桶表Hive分区和分桶的区别Hive分区和分桶的优缺点spark分区spark分桶原创 2021-01-12 20:27:09 · 2568 阅读 · 0 评论 -
hue oozie OutOfMemoryError: Java heap space
报出的错误:OutOfMemoryError: Java heap space问题出现的场景:使用hue提交spark作业本来一个在终端使用spark-submit提交可以运行成功的程序,等配置到hue上竟然堆异常了。关键在hue上也配置了--num-executors等参数,而且和spark submit提交方式的参数一样的。优化了半天发现依然不能通过。所以我们猜想是hue在提交sp原创 2016-12-23 13:56:08 · 1227 阅读 · 0 评论 -
pandas的dataframe转spark的dataframe 互转
pandas的dataframe转spark的dataframespark的dataframe转pandas的dataframepandas的dataframe和spark的dataframe互转dataframe互转原创 2021-01-12 14:05:07 · 1084 阅读 · 0 评论 -
窗口函数实现 distinct Distinct window functions are not supported
Distinct window functions are not supported窗口函数实现distinct开窗函数实现distinct分析函数实现distinct原创 2020-09-28 19:47:44 · 2760 阅读 · 0 评论 -
Spark简介系列03 join
通信策略通信模式 spark通信策略 点对点通信(node-to-node communication strategy) all-to-all通信shuffle join 逐点计算(per node computation strategy) broadcast join 注意:通信策略的优化会随着时间推移,在新版本中会有改进,内部优化器会随着基于成本的优化策略的改进,而更新对应join策略。从宏观层面考虑大表和大表关联,最终是shuffle join的过程,尤其原创 2020-05-13 17:28:31 · 194 阅读 · 0 评论 -
Spark简介系列02
结构化API指哪三类核心分布式结合类型?Dataset类型、DataFrame类型、SQL表和视图结构化API包含哪两类API?非类型化的DataFrame和类型化的DatasetDataFrame如何保证数据规范?DataFrame的类型校验由Spark维护,仅在运行时检查这些类型是否与Schema定义的类型一致。Dataset的类型检查在编译时还是运行时?在编译时检...原创 2020-05-06 16:21:28 · 196 阅读 · 0 评论 -
Spark SQL性能调优
Spark SQL官方性能调优 version2.4.4翻译 2020-01-08 11:45:56 · 191 阅读 · 0 评论 -
Spark SQL, DataFrames and Datasets指南
Spark SQL, DataFrames and Datasets概念梳理和简要介绍 版本spark 2.4.4翻译 2020-01-04 11:24:13 · 170 阅读 · 0 评论 -
spark集群模式概览
本文档简要概述了在群集上运行Spark程序时涉及到的一些概念,spark version 2.4.4翻译 2019-12-27 18:10:34 · 140 阅读 · 0 评论 -
Spark官方性能调优指南
本文根据官方性能优化指南和自身经验总结,作为一个记录,希望对同仁有所启示。version 1.6原创 2017-01-25 17:28:51 · 872 阅读 · 0 评论 -
saveAsTextFile很慢very slow
saveAsTextFile very slow问题表象:通过spark UI观察整个执行阶段开在saveAsTextFile阶段,很多task一直处于运行阶段,感觉很慢,程序是不是卡出了。初步判断:saveAsTextFile既然是卡在了这,肯定是IO瓶颈吧?以为其他阶段特别快呀分析:首先根据以往经验,saveAsTextFile应该是一个非常快速的操作。查看save的结果,只有1024M左右(为我的耐心点赞,为了看输出结果,原创 2017-04-21 19:54:06 · 4756 阅读 · 0 评论 -
Container killed by YARN for exceeding memory limits.
Reason: Container killed by YARN for exceeding memory limits. Consider boosting spark.yarn.executor.memoryOverhead.m.n GB of m GB physical memory used.原创 2017-05-16 17:35:23 · 5748 阅读 · 0 评论 -
hue oozie spark:GC overhead limt exceed
oozie.launcher.mapred.child.java.opts -XX:MaxPermSize=512moozie.launcher.mapreduce.map.memory.mb 14000oozie.launcher.mapreduce.map.java.opts -Xmx11000m为什么会发生:GC overhead limt exceed检查是Hotspot V原创 2016-12-25 16:40:17 · 545 阅读 · 0 评论