Hadoop基础到进阶
Apache Hadoop是一款支持数据密集型分布式应用程序,本专栏文章将会带领大家从入门到进阶的学习Hadoop。
搜索与推荐Wiki
这个作者很懒,什么都没留下…
展开
-
利用采样器实现mapreduce任务输出全排序
采样器是hadoop内自带的一个可以对目标文件部分数据进行提取的工具类,以方便我们对这些采样的数据做一些参考或者处理。hadoop提供了多种采样器供我们使用,以满足不同的需求。另外,采样器不同于普通mapreduce操作。它是直接在客户端机器上运行的。常见采样器IntervalSampler 以一定的间隔定期从划分中选择key,对有排序的数据来说更好RandomSame转载 2016-06-26 11:50:43 · 3165 阅读 · 0 评论 -
MapReduce InputFormat——DBInputFormat
一、背景 为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。二、技术细节1、DBInputFormat(Mys...原创 2015-11-30 10:38:01 · 2654 阅读 · 0 评论 -
MapReduce InputFormat之FileInputFormat
一:简单认识InputFormat类InputFormat主要用于描述输入数据的格式,提供了以下两个功能: 1)、数据切分,按照某个策略将输入数据且分成若干个split,以便确定Map Task的个数即Mapper的个数,在MapReduce框架中,一个split就意味着需要一个Map Task; 2)为Mapper提供输入数据,即给定一个spli...原创 2015-11-30 09:19:00 · 2401 阅读 · 0 评论 -
MapReducer中的多次归约处理
我们知道,MapReduce是分为Mapper任务和Reducer任务,Mapper任务的输出,通过网络传输到Reducer任务端,作为输入。在Reducer任务中,通常做的事情是对数据进行归约处理。既然数据来源是Mapper任务的输出,那么是否可以在Mapper端对数据进行归约处理,业务逻辑与Reducer端做的完全相同。处理后的数据再传送到Reducer端,再做一次归约。这样的好处是减少了...原创 2015-07-28 09:06:41 · 3054 阅读 · 0 评论 -
Ubuntu系统下eclipse配置mapreduce插件常见错误和解决办法汇总
在上篇文章中eclipse已经能访问HDFS目录( blog.csdn.net/gamer_gyt/article/details/47209623),但并不能进行Mapreduce编程,在这里小编将常见错误和处理办法进行总结,希望对大家有所帮助错误1:ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to l...原创 2015-08-03 15:34:40 · 3948 阅读 · 0 评论 -
Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException
使用MapReduce编写的中文分词程序出现了Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException: 这样的问题如图:上网查了好多资料,才明白这是hadoop本身的问题,具体参考:https://issues.apache.org/jira/browse/YARN-1298h...原创 2015-08-01 11:51:44 · 3644 阅读 · 0 评论 -
hadoop提交jar包卡住不会往下执行的解决方案
这是一个很蛋疼的问题,说实话在以前玩这个hadoop集群,不管是伪分布式还是集群都没有注意过分配内存这个问题,即job执行时的内存分配,然后在今天遇到了,搞了好久错误描原创 2016-09-22 12:08:36 · 6957 阅读 · 1 评论 -
《hadoop进阶》基于hadoop和hive的微博热词跟踪系统
扫一扫 关注微信公众号!号主 专注于搜索和推荐系统,尝试使用算法去更好的服务于用户,包括但不局限于机器学习,深度学习,强化学习,自然语言理解,知识图谱,还不定时分享技术,资料,思考等文章! 【技术服务】,详情点击查看:https://mp.weixin.qq.com/s/PtX9ukKRBmazAWARprGIAg...原创 2016-09-24 01:20:19 · 4309 阅读 · 0 评论 -
Sqoop1和Sqoop2的刨析对比
Sqoop是一款开源的工具,主要用于在Hadoop和传统的数据库(MySQL、postgresql等)进行数据的传递,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。 Sqoop目原创 2017-02-18 13:56:05 · 23795 阅读 · 4 评论 -
《hadoop进阶》web日志系统 KPI指标的分析与实现
推广一下个人的微信公众号【搜索与推荐Wiki】 转载请注明出处: 转载自 T...原创 2016-05-27 01:08:21 · 15098 阅读 · 5 评论 -
基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装
写在前边的话 hadoop2.7完全分布式安装请参考:点击阅读,继任该篇博客之后,诞生了下面的这一篇博客 基本环境: CentOS 6.5,Hadoop 2.7,Java 1.7 Hive 2.0.0,Zookeeper 3.4.8, Hbase 1.2.2 预安原创 2016-07-28 09:37:29 · 11162 阅读 · 8 评论 -
《hadoop进阶》PeopleRank从社交关系中挖掘价值用户
转载请注明出处: 转载自 Thinkgamer的CSDN博客: blog.csdn.net/gamer_gyt代码下载地址:点击查看1:PageRank 与 PeopleRank2:需求分析:挖掘CSDN博客的价值用户3:算法模型:PeopleRank算法4:架构设计:从数据准备到PR算法的MR化5:程序开发:hadoop实现PeopleRank算法原创 2016-05-29 22:42:53 · 14579 阅读 · 4 评论 -
《Hadoop进阶》利用Hadoop构建豆瓣图书推荐系统
转载请注明出处: 转载自 Thinkgamer的CSDN博客:blog.csdn.net/gamer_gyt代码下载地址:点击查看1:推荐系统概述2:需求分析:推荐系统的指标设计3:算法模型:基于物品的协同过滤并行算法设计4:架构设计:推荐系统架构5:程序实现:MR2V程序实现6:推荐系统评估一、推荐原创 2016-06-11 11:32:56 · 20302 阅读 · 25 评论 -
VM+CentOS+hadoop2.7搭建hadoop完全分布式集群
写在前边的话: 最近找了一个云计算开发实习生的工作,本以为来了会直接做一些敲代码,处理数据的活,没想到师父给了我一个课题“基于质量数据的大数据分析”,NameNode问题来了首先要做的就是搭建这样一个平台,毫无疑问,底层采用hadoop集群,在此之上,进行一些其他组件的安装和二次开发,整体架构如下: 一:安装VM 12.x 下载地址:http://原创 2016-07-25 15:57:04 · 29196 阅读 · 9 评论 -
使用python的hdfs包操作分布式文件系统(HDFS)
使用python的hdfs包操作HDFS文件系统,实例+参数的详细说明,参考官网资料整理的一篇博客原创 2016-09-07 00:00:42 · 39127 阅读 · 17 评论 -
三台PC服务器部署Hadoop HA(Hadoop 高可用性架构)
之前是在自己电脑上部署的hadoop集群,但并未涉及到HA配置,这次将集群迁移到PC服务器,但是问题来了,只有三台,但是我还想配置HA,PC服务器是CentOS6.5,原来想着在上边部署VM,从而部署HA集群,但经测试,未果,遂弃之,就想到了在三台机器上部署HA集群。原创 2016-08-30 14:42:03 · 9343 阅读 · 2 评论 -
基于hadoop集群的Hive1.2.1、Hbase1.2.2、Zookeeper3.4.8完全分布式安装
基于hadoop 2.7 的完全分布式集群部署 hive 2.0.0, Zookeeper 3.4.8 和 Hbase 1.2.2原创 2016-07-27 14:41:19 · 8974 阅读 · 0 评论 -
一、Hadoop2.6.0 单机模式配置
一、在Ubuntu下创建hadoop组和hadoop用户增加hadoop用户组,同时在该组里增加hadoop用户,后续在涉及到hadoop操作时,我们使用该用户。1、创建hadoop用户组2、创建hadoop用户 sudo adduser -ingroup hadoop hadoop回车后会提示输入新的UNIX密码,这是新建用户...原创 2015-06-18 10:49:49 · 5321 阅读 · 0 评论 -
二、hadoop伪分布搭建
环境 虚拟机:VirtualBoxUbuntu:14.04hadoop:2.6安装 1、创建hadoop用户sudo useradd -m hadoop -s/bin/bash【Ubun...原创 2015-07-07 20:14:49 · 7132 阅读 · 3 评论 -
hadoop中NameNode、DataNode、Secondary、NameNode、ResourceManager、NodeManager 介绍
1:NameNode2:SecondNameNode3:DataNode4:ResourceManage1、NameNode介绍 Namenode 管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个,分别是Namespace 镜像原创 2016-06-25 17:40:05 · 27595 阅读 · 7 评论 -
Java 封装 HDFS API 操作
代码下载地址:点击下载一:环境介绍hadoop:2.6Ubuntu:15.10eclipse:3.8.1二:操作包括判断某个文件夹是否存在 isExist(folder);创建文件夹 mkdir(folder);删除文件夹 ...原创 2016-03-26 10:33:58 · 4724 阅读 · 0 评论 -
eclipse编写MapReduce程序依赖的JAR包
吐槽一下: 小编之前编写MR程序都是把hadoop解压之后的所有文件全部BuildPath进去的,近期发现这样不行,不能长久做,如果要把程序打包成jar文件在终端运行的话,是不是会太..... 所以小编就一顿尝试下,先是尝试安装maven,可是发现在Ubuntu的eclipse整了好久也没OK,就放弃了如需转载:请注明出处,说实话过程很心酸.......网上现有版本原创 2016-05-03 14:04:03 · 6051 阅读 · 1 评论 -
HDFS学习笔记
1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。1.2、元数据节点(Namenode)和数据节点(datanode)元...原创 2015-11-29 18:25:51 · 2258 阅读 · 0 评论 -
HDFS Federation(HDFS 联邦)(Hadoop2.3)
最早接触Federation这个词还是第一家公司用的DB2联邦数据库。第一代HadoopHDFS:结构上由一个namenode和众多datanode组成。功能上划分为namespace和block storage service 两部分。所谓的HDFS Federation就是有多个namenode(或者说namespace)。如图:这里有blo...翻译 2015-11-26 00:23:10 · 5298 阅读 · 0 评论 -
hdfs之快照的学习
HDFS快照是文件系统的只读的实时的拷贝,可以是文件系统的一部分或者整个文件系统。快照的一些通用场景是数据备份,对用户错误的保护和灾难恢复。HDFS的快照实现是高效的:快照的创建时瞬间完成的,排除查找inode的时间,需要花费O(1),即常数时间。 只有执行与快照相关的修改时才需要额外的内存,内存开销为O(M),M为修改的文件或者目录的数量。 DataNodes中的块不会被复制,快...原创 2015-11-14 17:19:44 · 3198 阅读 · 0 评论 -
hadoop命令——hdfs
hdfs是hadoop大体系下的分布式文件管理系统,是英文Hadoop Distributed File System的简写,其常用命令如下:一:fs命令(和Linux终端运行命令一致,也是hdfs最常用命令)二:其他相关命令1、hadoop 归档文件shell:hadoop archive -archiveName file.har -p /gyt/input /gyt/out...原创 2015-07-11 17:11:32 · 2636 阅读 · 0 评论 -
Hadoop1.X 与 Hadoop2.X比较
鉴于好久没有更新博客,且最近开始找工作,所以对以往的相关知识进行整理一:Haddop版本介绍0.20.x版本最后演化成了现在的1.0.x版本0.23.x版本最后演化成了现在的2.x版本hadoop 1.0 指的是1.x(0.20.x),0.21,0.22hadoop 2.0 指的是2.x,0.23.xCDH3,CDH4分别对应了hadoop1.0 h原创 2016-03-12 11:43:03 · 3597 阅读 · 0 评论 -
hadoop2.6伪分布+pig0.15+zookeeper3.4.6安装
一、hadoop2.6伪分布安装请参考:http://blog.csdn.net/gamer_gyt/article/details/46793731二、pig0.15安装Pig的介绍 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。...原创 2015-08-04 10:58:55 · 2922 阅读 · 1 评论