![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 81
小白白白又白cdllp
数据挖掘,数据分析,数据市场
展开
-
k8s部署presto
这个报错的原因是没有装less,是presto用来分页的工具,在初始化脚本里已添加了,加上之后就没问题了。虽然能正常使用presto了,但是k8s中显示presto-worker的deployment有BUG,,自己打包也可以,自己写个dockerfile。jdk用的华为的镜像源,不用登录oracle。启动脚本和Presto配置文件。,应该是健康检查出了问题。,记得在环境变量里加上。配置Hive连接文件。原创 2024-05-23 16:55:32 · 746 阅读 · 0 评论 -
已有yarn集群部署spark
已有yarn集群的情况下,部署spark只需要部署客户端。原创 2024-05-18 21:25:36 · 355 阅读 · 0 评论 -
k8s中部署hive,包括客户端及服务端
推送好之后,在cube studio平台上,新建一个pipeline,使用自定义镜像模板,填写镜像为ccr.ccs.tencentyun.com/cube-studio/hadoop-hive:v3.3.2-3.1.3,debug,检查目录对不对,检查环境变量是否正确,在命令行输入hive命令,看是否能正常执行。环境变量写在/etc/profile更好,因为~/.bashrc是临时的,重启一下pod就复原了,但/etc/profile是全局的,避免一直要重复设置。登录ui界面,可以验证是否成功。原创 2024-05-16 16:34:33 · 1066 阅读 · 0 评论 -
k8s部署hadoop
配置和模板参考helm仓库:https://artifacthub.io/packages/helm/apache-hadoop-helm/hadoop。原创 2024-03-15 21:52:28 · 566 阅读 · 0 评论 -
helm部署hadoop
比如我现在只有1个datanode,我想改成3个datanode,复制粘贴配置信息到values.yaml(没有就自己创建),更改datanode的replicas为3,先卸载,再重新执行install命令。如果需要修改配置,在官方仓库中,点击default values按钮,可以获取默认的配置,将配置信息粘贴到values.yaml,通过helm uninstall卸载后,再通过命令。可以根据新配置重新部署。原创 2024-03-15 21:40:34 · 429 阅读 · 3 评论 -
spark错误记录:Container on host: was preempted(没有彻底解决,只是理解这个问题)
(作者:陈玓玏 data-master)spark-sql任务跑着跑着,碰到一个bug:Container on host: was preempted又是一个新鲜的bug呢!!一通查资料,得出一个初步结论:因为我的任务,其中有task占用的内存太大,而我们的yarn又是使用的公平调度机制,当有新任务来的时候,我的task对应的容器就会被别的任务抢占。于是就简单了解下yarn的公平调度机制。yarn有先入先出调度器,容量调度器,公平调度器三种调度器。先入先出调度器,先来的任务先执行,任务原创 2020-07-28 17:09:17 · 3320 阅读 · 1 评论 -
Spark报错:The pivot column feature has more than 10000 distinct values
(作者:陈玓玏 data-master)用pyspark做窄表转宽表的时候,出现报错:pyspark.sql.utils.AnalysisException: u'The pivot column feature has more than 10000 distinct values, this could indicate an error. If this was intended, set spark.sql.pivotMaxValues to at least the number o原创 2020-07-27 18:26:47 · 1319 阅读 · 0 评论 -
Spark报错:grows beyond 64 KB
(作者:陈玓玏 data-master)spark脚本执行中,碰到错误:2020-06-24 16:59:53,246 [Thread-44] ERROR org.apache.spark.sql.catalyst.expressions.codegen.CodeGenerator - failed to compile: org.codehaus.janino.InternalCompilerException: Compiling "GeneratedClass": Code of meth原创 2020-07-22 22:59:49 · 3501 阅读 · 0 评论 -
Hive中插入数据全为空(sql无误的情况下)
(作者:陈玓玏 data-master)如果sql无误的情况下,其实这个问题很好解决。一个很可能的原因就是:写入的数据类型和建表时定义的数据类型不一致。我之前碰到这个问题,检查了sql很多遍,上层表的数据也检查了很多遍,都是没有问题的。这个时候,可以选择几条数据,不写入表,直接看结果,发现是有结果的。再检查建表语句,发现建表语句是:create table tmp.a(id int,name string,class_one float,class_two float,class_thr原创 2020-07-22 16:20:48 · 5054 阅读 · 0 评论 -
Hive中怎么快速复制分区表
(作者:陈玓玏 data-master)我们在hive中操作底层表时,经常会在临时库中做一些测试,然后再把一些测试过程中产生的需要长期保留的结果固化到线上库中。或者是在进行数据库的大清理时,产生大量数据迁移的需求,这时候我们需要知道怎么样迁移hive表。举个栗子,比如我现在要将表A迁移为表B,以下步骤:建立一个结构相同的表;create table tmp.B like tmp.A;这样我们就建立了一个和表A结构完全一模一样的表B,但是里头是没人任务数据的,因为create like只复制原创 2020-07-22 15:51:40 · 2344 阅读 · 0 评论 -
Hive return code 2以及concat与concat_ws的区别
(作者:陈玓玏data-master.net)一、 Return code 2错误用hive跑数的时候,常会碰到一个错误:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask关于这个错误,网上有挺多解决方法的,有说将引擎换成Tez的,这个我试过,似乎没成功,有的人成功了。说明这个return code 2的根本原因可能是不一样的。有说是数据量的问题的,这种情况我也碰到过,就是原创 2020-05-31 22:19:28 · 1510 阅读 · 0 评论 -
Hive表查看各个分区的更新时间
(作者:陈玓玏data-master.net)'查看hive各分区更新的时间:show create table dev.cdl_monitor;找到LOCATION,表示的就是hive表的数据存放的路径(下面的图片,有些信息被我隐掉啦,不过不影响阅读)找到路径后,在命令行输入以下命令hdfs dfs -ls hdfs://nameservice1/user/hive/warehouse/dev.db/cdl_monitor这样就能看到每个分区更新的时间了。如果你的表不止一个分区,而你原创 2020-05-31 19:49:29 · 7377 阅读 · 0 评论 -
Hive解决return code 3问题
(作者:陈玓玏)1. 问题描述使用hive跑数时,出现return code 3的错误,但没有报出代码中具体位置的错误。2. 问题原因具体原因不是非常清楚,但是网上提到的原因最有可能的是数据倾斜导致的,具体的表现就是任务执行的时间非常长,并且执行了非常长的时间之后还失败了,出现code 3错误。这类错误一般不是代码有逻辑或语法问题,而是数据层面的问题,向code 2也是这样,之前碰到的c...原创 2020-05-31 19:36:04 · 8101 阅读 · 0 评论 -
查找hive表的存储位置并查看表文件大小及分区文件名
(作者:陈玓玏)有时候我们需要查看Hive表对应文件的文件大小,原创 2020-05-31 19:35:46 · 12042 阅读 · 0 评论 -
Hive的架构
(作者:www.data-master.net 数据极)Hive是基于Hadoop的没所以其底层是Hadoop,主要由Data Node和Name Node组成,Data Node存放真实数据,而Name Node存放哪些数据放在哪台机器上这些信息。每一次的计算还会启动Job,所以Hadoop中还会包括Job跟踪及管理的工作,Hive的语句中,大多数命令都可能会启动计算,比如select co...原创 2020-05-31 19:36:55 · 1091 阅读 · 0 评论 -
在Elastic Search同时搜索多个字段
(作者:www.data-master.net 数据极)问题:我是使用elastic search的新手,我想知道如何进行指定一个或多个字段的搜索。使用SQL我会写这个查询:"SELECT field1, field2, field3 FROM tablename WHERE field1 = 'X' AND field2 != 'Y' AND field3 = 'Z'"在elasti...翻译 2020-05-31 19:31:08 · 5431 阅读 · 0 评论