![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
summer2381
这个作者很懒,什么都没留下…
展开
-
HDFS常用命令整理
一、hdfs基本操作 hadoop fs 与hdfs dfs等价 1.如何查看hdfs子命令的帮助信息,如ls hdfs dfs -help rmdir 2.查看hdfs文件系统中已经存在的文件 hdfs dfs -ls / hadoop fs -ls / 3.在hdfs文件系统中创建文件 hdfs dfs -touch /czz.txt 4.从本地路径上传文件到hdfs hdfs dfs -pu...原创 2019-09-09 20:13:41 · 327 阅读 · 0 评论 -
MapReduce原理
简介 MapReduce任务过程分为两个处理阶段:map阶段和reduce阶段。每阶段都以键-值对作为输入和输出,其类型由程序员来选择。程序员还需要写两个函数:map函数和reduce函数。 数据流 Hadoop将作业分成若干个任务(task)来执行,其中包括两类任务:map任务和reduce任务。 map阶段 数据划分 Hadoop将MapReduce的输入数据划分成等长的...原创 2019-09-13 21:27:35 · 492 阅读 · 0 评论 -
mapreduce 和hive 的区别
mapreduce 和hive 的区别 首先: 1.hive本身只是在hadoop map reduce 或者spark 计算引擎上的封装,应用场景自然更局限,不可能满足所有需求。有些场景是不能用hive来实现,就需要map reduce或者spark rdd编程来实现。 2.结构复杂的日志文件,首先要经过ETL处理(使用mapreduce),得到的数据再有hive处理比较合适。直接让hive...原创 2019-09-13 21:37:24 · 1171 阅读 · 0 评论 -
Hadoop优化
1 MapReduce优化 MapReduce 程序效率的瓶颈在于两点: 计算机性能 CPU、内存、磁盘健康、网络 I/O操作优化 (1)数据倾斜 (2)Map和Reduce数设置不合理 (3)Map运行时间太长,导致Reduce等待过久 (4)小文件过多 (5)大量的不可分块的超大文件 (6)Spi次数过多 (7)Merge次数过多等。 MapReduce优化方法主要从六个方面考虑:数据输入...原创 2019-09-19 12:44:19 · 216 阅读 · 0 评论