Partition
文章平均质量分 79
董可伦
博主曾获2014年全国数学建模竞赛国家一等奖;有八年大数据经验,大数据领域专家、CSDN博客专家。Apache Hudi Active Contributor,喜欢开源,擅长并乐于分享Flink、Hudi、Spark等大数据领域的技术
展开
-
Spark 覆盖写Hive分区表,只覆盖部分对应分区
我的原创地址:https://dongkelun.com/2020/01/16/sparkHivePartitionOverwrite/前言总结Spark覆盖写Hive分区表,如何只覆盖部分对应分区版本要求Spark版本2.3以上,亲测2.2无效配置config("spark.sql.sources.partitionOverwriteMode","dynamic")注意1、saveAsTable方法无效,会全表覆盖写,需要用insertInto,详情见代码2、insertInto需要主原创 2021-06-17 19:31:29 · 2660 阅读 · 3 评论 -
Spark性能优化:基于分区进行操作
我的原创地址:https://dongkelun.com/2018/09/02/sparkMapPartitions/前言(摘自Spark快速大数据分析)基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为每个元素都配置一次的工作。Spark 提供基于分区的map 和foreach,让你的部分代码只对RDD...原创 2018-09-07 15:09:28 · 2330 阅读 · 0 评论 -
Hive分区表学习总结
前言用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。Hive分区分为静态分区和动态分区1、建表语句先用一个有分区字段的分区表进行学习,静态分区和动态分区的建表语句是一样的。create table test_partition (id strin...原创 2018-12-04 12:20:47 · 1039 阅读 · 0 评论 -
Spark操作Hive分区表
我的原创地址:https://dongkelun.com/2018/12/04/sparkHivePatition/前言前面学习总结了Hive分区表,现在学习总结一下Spark如何操作Hive分区表,包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在Hive分区表里插入数据,并记录一下遇到的问题以及如何解决。1、Spark创建分区表只写主要代码,完整代码见附录......原创 2018-12-07 00:11:32 · 12448 阅读 · 11 评论