spark
文章平均质量分 85
nlper_wx
这个作者很懒,什么都没留下…
展开
-
spark性能优化(一)
本文内容说明 初始化配置给rdd和dataframe带来的影响 repartition的相关说明 cache&persist的相关说明 性能优化的说明建议以及实例 配置说明 spark:2.4.0 服务器:5台(8核32G)初始化配置项 %%init_spark launcher.master = "yarn" launcher.conf.spark.app.name = "BDP-xw" launcher.conf.spark.driver.cores原创 2021-10-17 19:52:01 · 195 阅读 · 0 评论 -
spark相关介绍-提取hive表(一)
本文环境说明 centos服务器 jupyter的scala核spylon-kernel spark-2.4.0 scala-2.11.12 hadoop-2.6.0 本文主要内容 spark读取hive表的数据,主要包括直接sql读取hive表;通过hdfs文件读取hive表,以及hive分区表的读取。 通过jupyter上的cell来初始化sparksession。 文末还有通过spark提取hdfs文件的完整示例 jupyter配置文件 我们可以在jupyter的cell框里面,对spark的s原创 2021-09-19 10:49:25 · 1296 阅读 · 0 评论