Spark
文章平均质量分 66
炼数成器
bystudying com
展开
-
spark导入doris的几种方式
本文主要介绍通过spark导入doris的3种方式。原创 2023-08-11 22:30:00 · 2161 阅读 · 0 评论 -
spark设置日志级别的4种方式
建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库,存储标签和用户特征库等相关数据。 “数据仓库之父” W.H.Inmon 在《Building the Data Warehouse》一书中定义数据仓库是“一个面向主题的、集成的、非易失的、随时间变化的、用来支持管理人员决策的数据集合”。 面向主题:业务数据库中的数据主要针对事务处理...原创 2021-10-31 23:58:48 · 5995 阅读 · 0 评论 -
Spark hive 数据倾斜的优化
数据倾斜产生的原因数据倾斜就是分布式计算过程中,数据分配不均匀,导致最终任务花费的时间很长或失败。不管是hive还是spark, 数据倾斜基本都发生在执行join count distinct、group by等会触发Shuffle操作时,如果key值分布过于集中,相同key的值就会被拉到一个节点上,容易发生单点计算问题,导致数据倾斜。数据倾斜导致的问题:SparkDriver和Exe...原创 2019-12-31 13:33:00 · 1171 阅读 · 0 评论 -
Spark的checkpoint详解
源码解释/***Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint 将此RDD标记为检查点。它将保存到检查点内的文件中*directory set with `SparkContext#setCheckpointDir` and all references to its ...原创 2020-06-08 10:53:00 · 1332 阅读 · 0 评论 -
Spark-SQL的使用
spark-sql CLI Spark SQL CLI是一种方便的工具,可以在本地模式下运行Hive Metastore服务并执行从命令行输入的查询。 conf/目录中必须包含hive-site.xml,core-sit...原创 2021-03-20 11:19:00 · 1439 阅读 · 0 评论