![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 80
AMY行致远
这个作者很懒,什么都没留下…
展开
-
Hadoop优化与调整
io.file.buffer.size Hadoop访问文件的IO操作都需要通过代码库。因此,在很多情况下,io.file.buffer.size都被用来设置缓存的大小。不论是对硬盘或者是网络操作来讲,较大的缓存都可以提供更高的数据传输,但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数,以byte为单位,默认值是4KB,一般情况下,可以设置为64KB(65536byte转载 2017-04-18 20:43:26 · 280 阅读 · 0 评论 -
Hadoop 性能优化
Hive性能优化1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有转载 2017-04-15 21:10:37 · 8842 阅读 · 0 评论 -
hive的查询注意事项以及优化总结 .
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from A转载 2017-04-15 23:22:33 · 258 阅读 · 0 评论 -
hive优化--增加减少map数
如何合并小文件,减少map数?假设一个SQL任务:Select count(1) from popt_tbaccountcopy_mes where pt = ‘2012-07-04’;该任务的inputdir /group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2012-07-04共有194个文件,其中很多是转载 2017-04-15 23:28:47 · 1549 阅读 · 0 评论 -
让你彻底明白hive数据存储各种模式
本帖最后由 pig2 于 2014-5-19 12:59 编辑问题导读1.hive数据分为那两种类型?2.什么表数据?3.什么是元数据?4.Hive表里面导入数据的本质什么?5.表、分区、桶之间之间的关系是什么?6.外部表和表的区别是什么?Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表转载 2017-04-25 23:31:17 · 1475 阅读 · 0 评论 -
hive内部表与外部表区别详细介绍
问题导读:1.创建内部表与外部表的区别是什么?2.external关键字的作用是什么?3.外部表与内部表的区别是什么?4.删除表的时候,内部表与外部表有什么区别?5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的?6.磁盘,hdfs,hive表他们之间的过程是什么样子的?转载 2017-04-25 23:32:11 · 319 阅读 · 0 评论 -
经典大数据架构案例:酷狗音乐的大数据平台重构
本文是酷狗音乐的架构师王劲对酷狗大数据架构重构的总结。酷狗音乐的大数据架构本身很经典,而这篇讲解了对原来的架构上进行重构的工作内容,总共分为重构的原因、新一代的大数据技术架构、踩过的坑、后续持续改进四个部分来给大家谈酷狗音乐大数据平台重构的过程。眨眼就是新的一年了,时间过的真快,趁这段时间一直在写总结的机会,也总结下上一年的工作经验,避免重复踩坑。酷狗音乐大数据平台重构整整经历了一年时转载 2017-06-09 23:19:35 · 360 阅读 · 0 评论 -
Hadoop/Spark相关面试问题总结
1、Hive中存放是什么? 表。 存的是和hdfs的映射关系,hive是逻辑上的数据仓库,实际操作的都是hdfs上的文件,HQL就是用sql语法来写的mr程序。2、Hive与关系型数据库的关系? 没有关系,hive是数据仓库,不能和数据库一样进行实时的CURD操作。 是一次写入多次读取的操作,可以看成是ETL工具。3、Flume工作机制是什么? 核心概念是age转载 2017-06-14 21:22:31 · 328 阅读 · 0 评论