spark
文章平均质量分 69
PONY LEE
运动不息,生命不止!
展开
-
Spark 数据倾斜处理
数据倾斜的问题优先从数据源解决,以下方法是辅助缓解:(1)spark-sql任务,可以尝试distribute by () 某个字段或者可以确定唯一维度值(某几个联合字段)(2)参考文档调优: https://blog.csdn.net/lsshlsw/article/details/52025949(3)数据倾斜的定位方法:选取key,对数据进行抽样,统计出现的次数,根据出现次数大小排序取出前几个spark-shell获取数据不均衡的数据scala>val conf=new SparkC原创 2022-03-10 10:06:47 · 2954 阅读 · 0 评论 -
Spark Thrift Server 部署与应用
前言在介绍spark thrift server 需要先介绍一下其与hiverserver2及spark-sql的关系与区别HiveServer2Hive提供了一个命令行终端,在安装了Hive的机器上,配置好了元数据信息数据库和指定了Hadoop的配置文件之后输入hive命令,就可以进入到hive的交互式终端,接下来只要编写SQL语句即可,这跟传统RDB数据库提供的终端是类似的。启动hiveserver2服务后,Hive除了可以通过hive提供的beeline以cli的方式操作hive,还提供了j原创 2022-03-08 20:11:19 · 8304 阅读 · 0 评论