斜月明寒草
码龄7年
关注
提问 私信
  • 博客:5,301
    5,301
    总访问量
  • 4
    原创
  • 2,123,250
    排名
  • 3
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-05-25
博客简介:

weixin_42306464的博客

查看详细资料
个人成就
  • 获得0次点赞
  • 内容获得0次评论
  • 获得9次收藏
创作历程
  • 4篇
    2018年
成就勋章
TA的专栏
  • Kafka
    2篇
  • 大数据
    3篇
  • hive
    2篇
  • Zookeeper
    1篇
  • MapReduce
    1篇
  • hive优化
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive优化系列之Map与Reduce数量选择

注意,以下操作都是针对非分桶表map数量算法MapTask的个数=输入文件总大小/分片尺寸,个人理解就是输出的文件数量原因:系统对输入的源文件依照Block的尺寸分片,并在执行Job时安排一个Map Task处理一个Block的或者由mapred.map.task数量决定,但是如果这个参数不合理的话,会失效小文件不分片压缩文件无法被切分优化建议优化原因map数量过少则导致并发度减小,job过长;若...
原创
发布博客 2018.05.29 ·
2854 阅读 ·
0 点赞 ·
0 评论 ·
10 收藏

kafka系列详解-性能与存储篇(持续更新完善中)

存储在Kafka文件存储中,同一个topic下有多个不同partition,每个partition为一个目录,partiton命名规则为topic名称+有序序号,第一个partiton序号从0开始,序号最大值为partitions数量减1在一个可配置的时间段内,Kafka集群保留所有发布的消息,不管这些消息有没有被消费。比如,如果消息的保存策略被设置为2天,那么在一个消息被发布的两天时间内,它都是...
原创
发布博客 2018.05.29 ·
1359 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive优化原则-策略-过程简述(持续更新完善中)

原则优化时把握整体,单个作业最优不如整体最优合理控制map reduce数量减少job数量(合并,大的分拆)合并小文件避免倾斜从表连接的角度优化:尽量使用内连接,因为内连接是两表都满足的行的组合,而外连接是以其中一个表的全部为基准从索引的角度优化:对那些常用的查询字段简历索引,这样查询时值进行索引扫描,不读取数据块可以在查询的过程中减少不必要的分区,字段好Hadoop的首要任务是增大每次任务所搭载...
原创
发布博客 2018.05.25 ·
678 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Kafka系列详解-基础概念与核心设计(持续更新完善中)

核心概念topic:对消息(message)归类;例如,在网页活动跟踪中,每个活动种类(包括网页浏览、搜索、点击等)的消息都可以发布到一个各自的topic中Topic和Producer发布给一个topic的消息可以在Kafka集群中分割成多个 partition每个parititon都是一个loglog中的消息按发布的顺序排成一个消息列( message sequence )Kafka不断地向lo...
原创
发布博客 2018.05.25 ·
410 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏