hadoop基础
文章平均质量分 77
柯南爱上指针
·
展开
-
使用hive做单词统计
1、首先创建一个文件单词的文件,例如a.txtkk,123,weiwei,123 hlooe,hadoop,hello,ok h,kk,123,weiwei,ok ok,h2、将文件上传到hdfs中hdfs dfs -copyFromLocal ./a.txt /upload/wangwei/a.txt3、在hive中创建一个textline的表create table textlines(tex...原创 2018-06-20 20:20:55 · 2271 阅读 · 2 评论 -
MapRduce特性:全排序
现在在学习hadoop,尽量把自己学到的知识分享出来,监督自己的学习!在hadoop权威指南中说到:排序是MapReduce的核心技术。因此可以知道排序的分量。一、如何产生一个全排序文件? 1、只使用一个reduce(也就是只用一个分区:a single partition),显然不靠谱,面对大文件的时候,失去了mapreduce的优势。 2、自己定义分区函数,对数据进行分区。 ...原创 2018-05-30 16:04:27 · 435 阅读 · 0 评论 -
MapRduce特性:二次排序
在学习二次排序的过程中,觉得还是很复杂的,写一篇博客分享一下。一、什么是二次排序? 二次排序就是对value值进行排序(本身value值是不会排序的)二、例子分析 需求: 求1920-2020年100年间每年气温的最大值。 问题分析: 1、这100年的数据每年的气温数据量十分的大 2、如果在每次在reduce里面对整个气温找最大值的话很消耗...原创 2018-05-30 19:05:04 · 472 阅读 · 0 评论 -
hive行转列以及列转行(面试必问)
点我进入原文 1.行转列 1.1 问题引入: 如何将 a b 1,2,3 c d 4,5,6 变为: a b 1 a b 2 a b 3 c d 4 c d 5 c d 6 1.2...转载 2019-08-17 14:30:46 · 336 阅读 · 0 评论