大数据
文章平均质量分 90
光光-Leo
奋斗在开发一线
展开
-
Hadoop那些事儿(三)---MapReduce编程浅析
1.map和reduce1.1 mapReduce处理逻辑在本系列文章的第一篇中,曾对MapReduce原理做过简单的描述,在这里再重述一遍。 首先我们有两个文件word1.txt和word2.txt 其中word1.txt的内容如下:aaaabbbbccccddddaaaaword2.txt的内容如下:aaaaccccddddeeeeaaaa这里的两个文件很小,我们先假设这原创 2017-02-06 10:27:38 · 2572 阅读 · 3 评论 -
Hadoop那些事儿(四)---MapReduce编程实例(基础)
前言上一篇文章,以WordCount为例讲了一下MapReduce的代码结构及运行机制,这篇文章将通过几个简单的例子进一步认识MapReduce。1.数据检索问题描述假设有很多条数据,我们从中查找包含某个字符串的语句。解决方案这个问题比较简单,首先在Map中获取当前读取的文件的文件名作为key,将要解析的数据按句号分割,逐句判断,如果包含指定的字符串则作为value输出。在Reduce中对属于同一文原创 2017-02-17 11:33:19 · 13645 阅读 · 8 评论 -
Hadoop那些事儿(二)---MapReduce开发环境搭建
上一篇文章介绍了在ubuntu系统中安装Hadoop的伪分布式环境,这篇文章主要为MapReduce开发环境的搭建流程。1.HDFS伪分布式配置使用MapReduce时,如果需要与HDFS建立连接,及使用HDFS中的文件,还需要做一些配置。 首先进入Hadoop的安装目录cd /usr/local/hadoop/hadoop2在HDFS中创建用户目录./bin/hdfs dfs -mkdir -p原创 2017-01-19 20:41:25 · 7373 阅读 · 7 评论 -
Hadoop那些事儿(五)---Hive安装与配置
hadoop+hive原创 2017-02-22 15:04:14 · 2971 阅读 · 0 评论 -
Hadoop那些事儿(一)–--Hadoop初探
前言Hadoop是什么? 用百科上的话说:“Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。” 可能有些抽象,这个问题可以在一步步学习Hadoop的各种知识以后再回过头来重新看待。Hadoop大家族Hadoop不是一个单一的项目,经过10年的发展,Hadoop已经成为了一个拥有近20个原创 2016-12-24 15:19:52 · 7483 阅读 · 4 评论 -
Hadoop那些事儿(六)---Hive入门程序
关于hive的入门知识点,网上有很详细的资料,我是看的 http://yiibai.com/hive/ 提供的教程,在这里我就不重复了。然后最近一直在蒙圈中,在使用过程中有问题一直解决不了,卡了好久。下面来写hive的jdbc程序。 我还是在之前hadoop的项目中写的,首先引入hive的依赖包,位于安装目录下,我这里的地址是/usr/local/hive/lib 我引入了所有含有hive的ja原创 2017-03-06 11:13:07 · 1624 阅读 · 0 评论