presto
文章平均质量分 79
秦拿希
当前正在迷茫中...
展开
-
【trino ssl】使用rancher部署trino ssl到kubernestes
这边介绍trino在kubernetes上的安装,这个过程遇到了几个难缠的问题,耗费了3周左右,其实都是小问题,但是在部署的过程中没有考虑到,导致时间拉长了。一.打包镜像第一步使用trino363打包镜像,使用dockerfile,基本上与之前介绍的presto on kubernetes没有变化FROM pythonMAINTAINER 682556RUN useradd --create-home --no-log-init --shell /bin/bash hiveRU..原创 2021-12-06 09:24:18 · 11466 阅读 · 0 评论 -
【trino https】trino权限验证开启https
一. 背景presto使用的很顺利,项目要求把presto的账号开放出去,供其他用户自己使用。因为目前的presto的jdbc链接是没有口令的,只要拿到这个链接,任何人都可以使用,且无法追踪任务提交的用户,这对presto和集群是一个大的风险,因此需要给presto加上权限控制。因为presto有两个版本,一个是目前的facebook的prestodb,更新到0.265.1,目前我们使用的prestodb0.220,另一个是创始团队重新创建的一个项目叫trino,更新到364版本。在调查了双方的官方安装原创 2021-12-03 16:26:31 · 13498 阅读 · 0 评论 -
【presto on kubernates】presto on kubernates解决方案2
同上篇文章,上篇文章使用了两个镜像presto coordinator和worker,这篇文章展示只用一个镜像,并且动态配置presto参数的情况一。 镜像打包首先删除presto中内存参数,jvm参数的设置文件。保留hive的链接文件(这里hive的链接也可以配置动态,因为hive的链接不会经常变动,所以直接打在镜像里)接下去编写Dockerfile,与前面类似FROM pythonMAINTAINER 682556RUN useradd --create-home -.原创 2021-04-02 16:41:37 · 7770 阅读 · 0 评论 -
【presto on kubernates】presto on kubernates解决方案
最近研究了kebernates的弹性计算HPA,可以根据CPU和Memory的阈值设定弹出pod的数量。HPA研究过后,组内建议是否可以将presto部署到kubernates集群上,于是便开始着手部署presto到kubernates。一 presto镜像打包镜像打包我分开了coordinate和worker两个镜像coordinate镜像打包:打包presto首先找一个presto的部署包,我之前在测试环境部署了一个presto 0.220,1个master(主节点也充当work.原创 2021-03-09 11:47:15 · 8294 阅读 · 0 评论 -
【presto】presto通过hive读取hdfs子目录数据问题
团队成员在做存储时遇到一个问题,在hdfs目录写了数据后,使用hive外部表挂载,挂载的目录如下/datamart-kafka-compare-OUT/datamart_kafka_compare_OUT/T_626而实际在T_626目录下还不是文件,还是目录(忽略红框这条,这条是后来从子目录拷贝出来的),如此在presto查询时,使用count查出来数据为0,而hive查询可以查出数据。presto查询略过,数据为0hive查询结果为了测试是否是无法读取子目录的问题,把红框这个原创 2021-01-21 16:45:11 · 9706 阅读 · 0 评论 -
【presto】Encountered too many errors talking to a worker node. The node may have crashed or be under
生产设置的presto集群的并发任务是10个,队列200。43台worker,每台分配15G内存。今天由于任务量过大,而且大查询任务很多,导致很多sql跑的很慢,并且有些sql在跑到99%的时候一直pengding,到了timeout时间就抛错了点进去看报错原因,发现以下报错com.facebook.presto.spi.PrestoTransportException: Encountered too many errors talking to a worker n..原创 2020-07-17 15:12:47 · 8479 阅读 · 0 评论 -
【逆向思维】yarn node label生产共用问题
生产背景presto on yarn已经测试完毕,准备上生产,生产环境严格,不允许有任何影响生产的因素。生产共50个节点,要求是固定10台节点跑presto,且不能影响原有的mapreduce(无标签application)程序,即50台节点也必须都能被mapreduce程序分配到。在之前的测试中,固定10台节点中一台打coordinator标签,9台打worker标签,启动presto。存在...原创 2020-04-16 10:36:15 · 733 阅读 · 2 评论 -
【presto on yarn】问题UnknownHostException和重启节点
一.java.net.UnknownHostException: seacluster在presto on yarn启动之后,在presto-cli控制台访问hive的数据库,不论是show schemas还是show tables都能成功但是真正用sql去查询表的时候,却会报java.net.UnknownHostException: seacluster。这里的seaclu...原创 2020-03-19 12:26:11 · 2394 阅读 · 6 评论 -
【yarn node label】yarn node label设置presto主节点(接上一篇)
接上篇https://blog.csdn.net/w8998036/article/details/101522048,安装好presto on yarn之后,presto集群的coordinator主节点是由yarn自动分配的,那么每次访问presto的时候地址都会变,在程序中就没法固定presto的连接参数,此问题可以由yarn node label来解决使用node label需要...原创 2019-10-22 14:50:25 · 1237 阅读 · 5 评论 -
【presto on yarn】解决方案
一.前言项目架构升级,从hadoop2.7升到3.X,需要从批处理转变到实时流。大半年一直在做数据导入,没有很好的方案。目前在尝试的使用kafka分发文件,解码程序解码文件,落到flume,flume直接写hdfs。其中每天需要先建立hdfs文件目录,hive外部表挂载hdfs目录。因为patition目录结构有4层,导致小文件很多,写入速度很慢。一小时的数据流入需要四小时才能完全导入。我...原创 2019-09-27 14:22:35 · 3531 阅读 · 19 评论