hadoop
文章平均质量分 78
秦拿希
当前正在迷茫中...
展开
-
【性能测试】记一次性能测试
先起个标题,待编辑原创 2021-05-28 16:24:06 · 9381 阅读 · 0 评论 -
【presto】presto通过hive读取hdfs子目录数据问题
团队成员在做存储时遇到一个问题,在hdfs目录写了数据后,使用hive外部表挂载,挂载的目录如下/datamart-kafka-compare-OUT/datamart_kafka_compare_OUT/T_626而实际在T_626目录下还不是文件,还是目录(忽略红框这条,这条是后来从子目录拷贝出来的),如此在presto查询时,使用count查出来数据为0,而hive查询可以查出数据。presto查询略过,数据为0hive查询结果为了测试是否是无法读取子目录的问题,把红框这个原创 2021-01-21 16:45:11 · 9745 阅读 · 0 评论 -
【逆向思维】yarn node label生产共用问题
生产背景presto on yarn已经测试完毕,准备上生产,生产环境严格,不允许有任何影响生产的因素。生产共50个节点,要求是固定10台节点跑presto,且不能影响原有的mapreduce(无标签application)程序,即50台节点也必须都能被mapreduce程序分配到。在之前的测试中,固定10台节点中一台打coordinator标签,9台打worker标签,启动presto。存在...原创 2020-04-16 10:36:15 · 747 阅读 · 2 评论 -
【hive外部表复制】hadoop数据复制及挂载hive外部表
场景公司有生产的hadoop(2.7)集群,现在需要搭建新的hadoop(3.1)集群,想要废弃mapreduce,使用其他的运算框架。选择了sparksql和presto需要做测试。那么新的集群是没有数据的,需要从生产导一些数据过来。策略1.使用hadoop命令从原集群的某个表的文件目录赋值到新的集群目录2.创建hive表,并分区3.新的集群文件挂载到hive表...原创 2019-06-20 16:54:27 · 962 阅读 · 0 评论 -
【presto on yarn】解决方案
一.前言项目架构升级,从hadoop2.7升到3.X,需要从批处理转变到实时流。大半年一直在做数据导入,没有很好的方案。目前在尝试的使用kafka分发文件,解码程序解码文件,落到flume,flume直接写hdfs。其中每天需要先建立hdfs文件目录,hive外部表挂载hdfs目录。因为patition目录结构有4层,导致小文件很多,写入速度很慢。一小时的数据流入需要四小时才能完全导入。我...原创 2019-09-27 14:22:35 · 3552 阅读 · 19 评论