hadoop
文章平均质量分 91
JeangLee
技术在于折腾
展开
-
HADOOP(1)__Mapreduce_WordCount统计单词数
最近开始接触大数据方面的学习,准备做一个系列笔记来介绍笔者的学习过程。文章简单介绍Hadoop的集群搭建、Mapreduce编程的主要流程及如何提交到Linux服务器中的yarn运行MapReduce程序。针对一些常见问题也作了简单的说明。 HADOOP集群搭建HADOOP是利用服务器集群,根据用户的业务逻辑,对海量数据进行分布式处理的大数据框架。原创 2017-07-30 11:28:55 · 761 阅读 · 0 评论 -
HADOOP(2)__Mapreduce分区、排序、分组
Hadoop生态中的Mapreduce在map阶段可以将大数据或大文件进行分区,然后到Reduce阶段可并行处理,分区数量一般与reduce任务数量一致;自定义实现Hadoop的WritableComparable接口(序列化并排列接口)的Bean在mapreduce中进行排序;分组的好处是在Reduce阶段时可将数据按照自定义的分组属性进行分组处理。原创 2017-08-12 11:37:18 · 708 阅读 · 0 评论 -
Hadoop(3)__Hive安装过程与hive sql初步使用
HIVE是基于Hadoop的一个数据仓库,可以将结构化的数据文件映射成一张表,并提供类SQL的查询语句,其SQL操作的基本原理是MapReduce,在本文最后的例子中,可以发现在某些操作时,Hive SQL其实是调用了MapReduce过程进行处理,因此使用Hive可以完成数据处理的操作,避免编写MapReduce的业务逻辑,提高开发效率。原创 2017-09-09 12:26:39 · 569 阅读 · 0 评论