优化
文章平均质量分 66
Jackie_ZHF
日日新 苟日新 又日新
展开
-
MapReduce的源码分析之Cli客户端源码讲解
MapReduce的源码分析之Cli 客户端源码分析: 客户端cli干了什么事情? 加载配置文件> 执行自定义参数的job任务(框架有很多默认参数)> submit提交任务>计算文件的split切片个数 [maps的个数、输入类型、输入大小] > 清单信息[block位置信息、block的index、split的大小] &...原创 2018-03-09 10:11:47 · 477 阅读 · 0 评论 -
HDFS配置参数及优化之实战经验(Linux hdfs)
HDFS优化之实战经验 Linux系统优化一、禁止文件系统记录时间 Linux文件系统会记录文件创建、修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失。在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间,这对HDFS这种读取操作频繁的系统来说,可以节约一笔可观的开销。可以修改/etc/fstab文件中...原创 2018-02-25 15:18:08 · 2394 阅读 · 0 评论 -
Linux磁盘挂载--解决Linux扩容和磁盘IO负载问题
Linux磁盘挂载解决扩容问题 增量数据的情况下,使得硬盘容量满载 解决磁盘IO的负载问题 现有的硬盘IO负载满载下,为了增加多个磁盘来分摊压力,如写入一个磁盘的目录下根据业务划分,写入挂载到不同磁盘的多个路径下,来达到磁盘IO的优化 一、 新增磁盘1、 在所要添加磁盘的虚拟机上右键点击设置。2、点击添加按钮。 3、选择硬盘,点击下一步 4、点击下一步。 5、根据自...原创 2018-03-05 08:59:28 · 1469 阅读 · 0 评论 -
Hadoop之block副本放置策略 Rack机架感知源码
注意:block副本放置策略相关描述在Hadoop官网和源码实现与描述不一致。官网是第一个和第二个副本在同一机架上,第三个在不同机架上 更多随意。但是具体实现如下:•Block的副本放置策略 –第一个副本:放置在上传文件的DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点。 –第二个副本:放置在于第一个副本不同的机架的节点上。 –第三个副本:与第二个副本相同机架...原创 2018-03-05 17:41:23 · 1941 阅读 · 0 评论 -
Hive优化
Hive 优化核心思想:把Hive SQL 当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行 --select仅查询本表字段 --where仅对本表字段做条件过滤------------------------------------------------------------------------------Explain 显示执行计划EXPLAIN [EXTE...原创 2018-05-09 16:14:06 · 481 阅读 · 1 评论 -
Hive性能优化(全面)
Hive性能优化(全面)1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。Jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。Sum,count,max,min等UDAF,不怕数据倾斜问题,hado...原创 2019-04-04 22:41:37 · 359 阅读 · 4 评论