自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Hive优化系列之Map与Reduce数量选择

注意,以下操作都是针对非分桶表map数量算法MapTask的个数=输入文件总大小/分片尺寸,个人理解就是输出的文件数量原因:系统对输入的源文件依照Block的尺寸分片,并在执行Job时安排一个Map Task处理一个Block的或者由mapred.map.task数量决定,但是如果这个参数不合理的话,会失效小文件不分片压缩文件无法被切分优化建议优化原因map数量过少则导致并发度减小,job过长;若...

2018-05-29 15:45:50 2820

原创 kafka系列详解-性能与存储篇(持续更新完善中)

存储在Kafka文件存储中,同一个topic下有多个不同partition,每个partition为一个目录,partiton命名规则为topic名称+有序序号,第一个partiton序号从0开始,序号最大值为partitions数量减1在一个可配置的时间段内,Kafka集群保留所有发布的消息,不管这些消息有没有被消费。比如,如果消息的保存策略被设置为2天,那么在一个消息被发布的两天时间内,它都是...

2018-05-29 15:41:44 1335

原创 Hive优化原则-策略-过程简述(持续更新完善中)

原则优化时把握整体,单个作业最优不如整体最优合理控制map reduce数量减少job数量(合并,大的分拆)合并小文件避免倾斜从表连接的角度优化:尽量使用内连接,因为内连接是两表都满足的行的组合,而外连接是以其中一个表的全部为基准从索引的角度优化:对那些常用的查询字段简历索引,这样查询时值进行索引扫描,不读取数据块可以在查询的过程中减少不必要的分区,字段好Hadoop的首要任务是增大每次任务所搭载...

2018-05-25 07:59:33 653

原创 Kafka系列详解-基础概念与核心设计(持续更新完善中)

核心概念topic:对消息(message)归类;例如,在网页活动跟踪中,每个活动种类(包括网页浏览、搜索、点击等)的消息都可以发布到一个各自的topic中Topic和Producer发布给一个topic的消息可以在Kafka集群中分割成多个 partition每个parititon都是一个loglog中的消息按发布的顺序排成一个消息列( message sequence )Kafka不断地向lo...

2018-05-25 07:50:23 391

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除