![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 79
斜月明寒草
这个作者很懒,什么都没留下…
展开
-
Hive优化原则-策略-过程简述(持续更新完善中)
原则优化时把握整体,单个作业最优不如整体最优合理控制map reduce数量减少job数量(合并,大的分拆)合并小文件避免倾斜从表连接的角度优化:尽量使用内连接,因为内连接是两表都满足的行的组合,而外连接是以其中一个表的全部为基准从索引的角度优化:对那些常用的查询字段简历索引,这样查询时值进行索引扫描,不读取数据块可以在查询的过程中减少不必要的分区,字段好Hadoop的首要任务是增大每次任务所搭载...原创 2018-05-25 07:59:33 · 626 阅读 · 0 评论 -
kafka系列详解-性能与存储篇(持续更新完善中)
存储在Kafka文件存储中,同一个topic下有多个不同partition,每个partition为一个目录,partiton命名规则为topic名称+有序序号,第一个partiton序号从0开始,序号最大值为partitions数量减1在一个可配置的时间段内,Kafka集群保留所有发布的消息,不管这些消息有没有被消费。比如,如果消息的保存策略被设置为2天,那么在一个消息被发布的两天时间内,它都是...原创 2018-05-29 15:41:44 · 1312 阅读 · 0 评论 -
Hive优化系列之Map与Reduce数量选择
注意,以下操作都是针对非分桶表map数量算法MapTask的个数=输入文件总大小/分片尺寸,个人理解就是输出的文件数量原因:系统对输入的源文件依照Block的尺寸分片,并在执行Job时安排一个Map Task处理一个Block的或者由mapred.map.task数量决定,但是如果这个参数不合理的话,会失效小文件不分片压缩文件无法被切分优化建议优化原因map数量过少则导致并发度减小,job过长;若...原创 2018-05-29 15:45:50 · 2789 阅读 · 0 评论