hadoop
文章平均质量分 60
smallpizza
这个作者很懒,什么都没留下…
展开
-
数据仓库hive安装配置——腾讯云
今天来说说如何在腾讯云上安装部署hive安装坏境:腾讯云:1G内存,1M带宽,20G硬盘操作系统:Ubuntu-16已经安装好hadoop(版本是2.6.5),jdk的安装路径是:/usr/local/jdk1.8.0_101hive下载地址:http://mirror.bit.edu.cn/apache/hive/hive-1.2.2/先在本地下载好hive,原创 2017-04-30 12:30:32 · 707 阅读 · 0 评论 -
hadoop伪分布式安装-腾讯云
最近学习hadoop,为了方便,于是我在腾讯云上安装部署了 hadoop伪分布式环境:腾讯云——1G内存,20G硬盘,1M带宽;系统是Ubuntu16java是jdk-8u101-linux-x64.tar(下载地址:http://download.csdn.net/detail/qinxike/9600178)hadoop版本是hadoop-2.6.5.tar.gz(下载地址原创 2017-04-16 18:16:34 · 2427 阅读 · 0 评论 -
hbase伪分布式安装——腾讯云
上一篇写了如何在腾讯云上安装部署 伪分布式 hadoop,今天给大家说说如何在腾讯云上安装部署伪分布式 hbase。环境:腾讯云——1G内存,20G硬盘,1M带宽原创 2017-04-17 09:45:33 · 1087 阅读 · 0 评论 -
mapreduce链接job流
在我们的日常的数据处理中,往往不是一个MapReduce就可以把需求解决,而是要用多个MR作业来完成对一个问题的求解。但是多个MR作业是如何链接的呢? 在MR框架中提供了三种方法,分别是线性MR job流,复杂MR job流,job设置预处理和后处理。 1.线性MR job流:一个MR作业是将数据输入经过处理输出到hdfs上,在处理复杂的问题时,我们可以用多个MR作业,让他们按一定的顺序执行,上原创 2017-09-17 23:28:02 · 333 阅读 · 0 评论 -
hdfs——hadoop文件读写操作
在hadoop中,有三大法宝——HDFS,MapReduce,Hbase,但是无论是MapReduce,Hbase还是hadoop中的其他组件如:Hive等他们要处理的数据还是处理完了的数据都是存储在HDFS中。可见HDFS可以说是hadoop存储的基础和核心,因此对HDFS的文件读写操作显得十分重要。import java.io.BufferedReader;import java.io.IOE原创 2017-09-18 09:24:44 · 2568 阅读 · 0 评论 -
MapReduce程序编程模型
在hadoop平台中,有一个很重要的组件——MapReduce(hadoop自带的,不用单独安装),它是一个分布式计算框架,该框架提供两个很重要的部件——Mapper和Reducer。 MR的基本执行流程: 从图中,我们可以看出,MR程序从hdfs中读入数据进行分片,形成一个原创 2017-09-18 09:55:21 · 485 阅读 · 0 评论 -
hive简介——java连接和数据管理的方式
在hadoop中hive担任的是数据仓库的角色,主要用来存储数据,而且存储的数据是不再修改的数据。hive集成了SQL技术,提供了类SQL的查询语句,称为HQL(和类SQL语句操作一样,在此就不再详细介绍)。在类SQL的增删改查操作中,HQL提供了INSERT(增)和SELECT(查)操作。 hive提供内部表(managed table)、外部表(external table)、分区(parti原创 2017-09-19 20:33:17 · 1046 阅读 · 0 评论 -
mapreduce topN算法实现 获取前10个音乐数据
上次通过爬虫获取了音乐的数据,并把数据导入到hdfs中,根据他的点击量获取前10个音乐,测试了半天现在终于弄好了,分享一下,如有更好的思路请指教。 部分原始数据(主要用于测试)如下: 代码如下:import java.io.IOException;import java.net.URI;import java.util.Collections;import java.util.Comp原创 2017-09-12 22:18:42 · 4806 阅读 · 0 评论 -
MapReduce重写FileInputFormat和FileOutputFormat
在mapreduce中默认的mapper输入时LongWritable和Text,reducer输出是part-r-00000文件。但是我们可以通过重写FileInputFormat和FileOutputFormat类来实现自定义的mapper输入和reducer输出。 1.自定义mapper输入是重写FileInputFormat和RecordReader类,而真正产生mapper输入的key和原创 2017-09-22 10:57:58 · 2966 阅读 · 0 评论