Hadoop
Teacher_du
我是菜鸟 但是一直没有停止学习
展开
-
hadoopd的基本了解
一.几个基本的模块1.HDFS:分布式海量数据存储功能 (将数据分布式存储到各个节点)。2.MapReduce:分布式并行编程模型和计算框架。解决分布式编程门槛高的问题,基于其框架对分布式计算的抽象 map 和 reduce,可以轻松实现分布式计算程序。(只需要编辑继承于MAPPER用于接受并处理切好片的数据的map类、进行处理输出格式的继承Reducer的reduce类、以及调动各个部分的中...原创 2019-01-12 22:52:35 · 466 阅读 · 0 评论 -
Hadoop常见问题
1.mr、hive调优的问题2.数据倾斜怎么处理hive的优化。答1.不用*来select,指定列名 2.指定分区 3.大小表join,使用map join将小表加载到内存 4.尽量不要出现count(distinct),用中间表和group代替 5.避免出现笛卡尔积 6.设置平行度和reducer的个数 7.合并小文件3HDFS的流程。答就按照正常的流量稍微说下,画下。4问hadoo...原创 2019-09-05 15:49:54 · 223 阅读 · 0 评论