Hadoop
面壁者~罗辑
I am fine~
展开
-
在Hive中如何向分桶表中插入数据
在Hive中如何向分桶表中插入数据 我们知道,对于分桶表,是不能使用 load data 的方式进行插入数据的操作的,因为load data 导入数据不会有分桶结构. 为了避免针对桶表使用load data 进行插入数据的操作,我们可以限制对桶表进行load操作, set hive.strict.checks.bucketing = true; 也可以在CM的hive配置项中修改此配置,当针对桶表执行load data操作时会报错。 针对文本数据,想要导入到Hive分桶原创 2020-09-14 14:14:00 · 3128 阅读 · 1 评论 -
Hive的使用之分桶表
Hive分桶分桶是将数据分解成更容易管理的若干部分的一个技术,比分区有着更为细粒度的数据范围划分.为什么要进行分桶呢?1**. 利用分桶表,我们能获得更高效的查询处理效率.**当分区数量过于庞大以至于可能导致文件系统崩溃时,或者我们找不到合理的分区字段时,可以考虑使用分桶表来解决问题.同时,分区与分桶并不冲突,可以对分区后的数据进一步进行分桶.分区针对的是对文件的存储路径进行划分,进而分成一个个不同的文件夹,这样的数据是容易造成数据倾斜的.而分桶的原理是按照哈希值对数据打散,并分发到各个不同的桶中原创 2020-09-14 11:37:03 · 296 阅读 · 0 评论 -
Hiveserver2异常退出,导致连接失败的问题。
Could not connect to hadoop02:10000(code THRIFTTRANSPORT):TTransportExportException(‘Could not connect to hadoop02:10000’,)解决方法:修改HiveServer2 的 Java 堆栈大小.默认配置为50MB,比较小,运行时会出现上面的错误以及运行卡顿的情况,建议将值根据自己的系统配置调大....原创 2020-09-11 17:31:49 · 1535 阅读 · 1 评论 -
hive中内存溢出问题的解决方法.
Error while processing statement: FAILED:Execution Error,return code 137 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask优化方法有一下几种:一:是调大内存(Yarn和MR)二:是开启有序动态分区,三:是关闭mapjoin四:是分批执行计算五:是使用本地模式关闭mapjoin:set hive.auto.convert.join=false;开启本地模式:se原创 2020-09-11 17:23:38 · 1873 阅读 · 0 评论 -
notepad++安装插件失败的解决方法,notepad++离线安装NppFTP插件(内附插件链接)
在notepad++上在线安装插件始终没有成功,查了检查了防火墙也还是不行,下面就介绍一下用安装包进行插件安装的方法,其他的插件也可以参考这种方法导入插件. 首先将下载解压后的文件夹放在你的notepad++安装路径下的plugins文件夹下,例如我的notepad++在D盘*然后我们打开notepad++,点开"设置",点击–>导入–>导入插件****在plugins文件夹下选择我们放进去的文件,点击"打开"****这样再次打开插件以后就可以看到NppF原创 2020-08-17 22:12:05 · 3447 阅读 · 2 评论