- 博客(3)
- 收藏
- 关注
原创 hive 调优
1. LIMIT限制调整一般情况下,LIMIT语句需要执行整个查询局域,然后在返回部分结果的。因此这种情况通常是浪费的,所以应该进可能地避免出现这种情况。Hive有一个配置属性可以开启,当使用LIMIT语句时,其可以对数据源进行抽样。2. JOIN优化对JOIN操作优化,一般讲最大的表放在JOIN的最右边或者直接使用/*streamtable(table_name)*/语句指出。如果所有表中有一个...
2018-07-09 21:20:58
389
原创 Kafka 数据传输问题-----丢失,重复
有这么几种可能的delivery guarantee:At most once 消息可能会丢,但绝不会重复传输 At least one 消息绝不会丢,但可能会重复传输 Exactly once 每条消息肯定会被传输一次且仅传输一次,很多时候这是用户所想要的。当Producer向broker发送消息时,一旦这条消息被commit,因数replication的存在,它就不会丢。但是如果Produce...
2018-07-09 21:17:05
1100
转载 kafka常用命令总结
整理kafka相关的常用命令创建主题(4个分区,2个副本)bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 2 --partitions 4 --topic test 查询集群描述bin/kafka-topics.sh --describe --zookeeper 生产者bin/kafka-c...
2018-07-09 17:06:13
119
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人