spark
xhaoDream
这个作者很懒,什么都没留下…
展开
-
Hive分区表导入数据
Hive分区表导入数据(动态分区插入,静态分区插入、动静态分区插入)在hive上建立一个简单的分区表:CREATE TABLE `school_student_info`(`name` string, `age` int,`sex` string )PARTITIONED BY (`grade` string,`teacher` string)ROW FORMAT SERDE...原创 2020-03-29 12:21:02 · 3657 阅读 · 0 评论 -
hive 数据倾斜
hive上执行脚本,数据一直跑不出,询问dba说可能是数据倾斜的问题,需要优化脚本(之前脚本可以正常执行),最后发现join表的重复数据过多造成的。网上看了下倾斜,简单总结下。一、 概念由于数据分布不均,造成大量数据集中到一点,造成数据热点。二、现象绝大多数task执行的很快,但是个别task执行很慢。eg:一共10个task,9个几分钟就执行完了,剩余的一个跑了一个多小时还没有结束...原创 2019-10-17 17:15:08 · 381 阅读 · 0 评论 -
windows下spark的安装
windows下spark的安装首先的在一个大前提下就是我们本机已经安装并配置好JDk环境变量了。选择的环境如下:jdk1.8+scala2.10.2+hadoop2.7.4+spark2.4.4一、 scala安装scala安装包下载:链接:https://pan.baidu.com/s/1HLsFBhXWazuKxGpgF8xP1Q提取码:g0zi安装后cmd输入sca...原创 2019-10-14 20:19:12 · 1273 阅读 · 0 评论