大数据
文章平均质量分 55
随风心境
这个作者很懒,什么都没留下…
展开
-
Metabase使用clickhouse数据库时区异常问题解决
这个是 clickhouse.metabase-driver 的一个bug,最新版本也不能解决此问题。原创 2022-11-01 15:48:52 · 654 阅读 · 0 评论 -
hive group by | distinct区别以及性能比较
高版本的hive,对distinct进行了优化,其执行计划和group by的一样,已经不会出现低版本的一个reduce现象,运行时间也相差无几。而group by则会被hive翻译成分组聚合运算,会有多个reduce任务并行处理,每个reduce对收到的一部分数据组,进行每组聚合(去重)但是不明确用的hive版本是否优化了distinct的情况下,用group by 进行去重是不会有问题的。默认情况下,distinct会被hive翻译成一个全局唯一reduce任务来做去重操作,因而并行度为1。转载 2022-10-21 10:59:19 · 291 阅读 · 0 评论 -
DBeaver连接hive kerberos
配置 jdbc:hive2://{host}:{port}/{database}/;驱动 org.apache.hive.jdbc.HiveDriver。原创 2022-10-18 15:16:07 · 1113 阅读 · 0 评论 -
flume 报错org.apache.flume.ChannelFullException: Space for commit to queue couldn‘t be acquired. Sinks
在CDH中运行flume用于nginx日志采集source:kafka 日志数据存储在kafka中channel: memory channel 基于内存sink: elasticsearch (es)偶尔会发生,数据无法写入Elasticsearch的问题,channel中堆积的数据达到预设值,但是sink到es却停止了,一条数据也不进行写入。查询日志发现:ERROR org.apache.flume.source.kafka.KafkaSource: KafkaSource EXCE原创 2020-09-27 11:35:02 · 825 阅读 · 0 评论 -
Kafka从上手到实践-Kafka集群:Kafka Listeners
转载于http://www.devtalking.com/articles/kafka-practice-16/这一章节主要对和Listener相关的四个配置项做以详细解释。listeners、advertised.listeners、listener.security.protocol.map、inter.broker.listener.name这四个配置项可能是大家最容易混淆和最不容易理解的。在解释这些配置项之前,我们先来明确几个概念。部署Broker的阿里云ECS称为Host Ma..转载 2020-09-24 16:47:39 · 1340 阅读 · 0 评论 -
为什么kafka客户端需要配置 /etc/hosts文件
问题背景前段时间,遇到一个kafka集群部署在k8s中,而kafka客户端在另一个k8s集群的pod的容器中,kafka集群中配置的advertised_listeners便是hostname。然而当时我只知道kafka集群的ip地址,当在客户端直接使用ip操作broker的时候便报错无法解析一个hostname。 当时不知道什么原因,只听同事说需要在kafka客户端对应的yaml文件中添加HostAliases字段然后重新部署kafka客户端所在的pod。 然后便可以访问了。 不明所以然的我,查了转载 2020-09-24 16:16:20 · 8288 阅读 · 2 评论