Hadoop
小江_xiaojiang
这个作者很懒,什么都没留下…
展开
-
Hadoop家族系列文章
写的相当不错的文章,收藏下。http://blog.fens.me/series-hadoop-family/转载 2015-04-23 09:05:34 · 586 阅读 · 0 评论 -
Hadoop2.x分布式安装以及HA部署
Hadoop2.x分布式部署1、三台电脑,ip、hostname,配置如下表192.168.217.131192.168.217.132192.168.217.133hadoop-seniorhadoop-senior02 hadoop-senior031.5G1 G1G1 CPU1 CPU 1原创 2016-10-11 15:58:58 · 1681 阅读 · 0 评论 -
Hadoop2.x入门讲解
Hadoop项目主要包括一下四个模块1、Hadoop Common 为其他Hadoop模块提供基础设施。2、Hadoop HDFS 一个高可靠、高吞吐量的分布式文件系统3、Hadoop MapReduce 一个分布式的离线并行计算框架。4、Hadoop YARN 一个新的MapReduce框架,任务调度与资源管理。HDFS系统架构原创 2016-10-10 19:41:07 · 1289 阅读 · 0 评论 -
hadoop学习笔记
Hadoop学习笔记第1章 Hadoop的安装与配置1.1 hadoop伪分布安装步骤使用root用户登录(1) 设置静态ip在centos桌面右上角的图标上,右键修改重启网卡,执行命令service network restart 验证:执行命令ifconfig(2) 修改主机名 修改当前回话中的主机名,执行命令hostname hadoop原创 2014-11-29 16:16:09 · 1403 阅读 · 4 评论 -
Hadoop如何计算map数和reduce数
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。job.split中包含split的个数由FileInp转载 2016-03-27 00:08:41 · 2826 阅读 · 0 评论 -
MapReduce实现矩阵相乘
前言MapReduce打开了并行计算的大门,让我们个人开发者有了处理大数据的能力。但想用好MapReduce,把原来单机算法并行化,也不是一件容易事情。很多的时候,我们需要从单机算法能否矩阵化去思考,所以矩阵操作就变成了算法并行化的基础。矩阵介绍为了方便说明,举两个矩阵作为示例:,容易看出,是一个矩阵,是一个矩阵,我们能够算出:这三个矩阵当然不大,但原创 2016-03-31 14:23:14 · 8548 阅读 · 4 评论 -
HDFS的运行原理
转载:http://www.cnblogs.com/laov/p/3434917.html简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保转载 2015-06-17 21:17:23 · 482 阅读 · 0 评论 -
用Maven构建Mahout项目
转载出处:http://blog.fens.me/hadoop-mahout-maven-eclipse/前言基于Hadoop的项目,不管是MapReduce开发,还是Mahout的开发都是在一个复杂的编程环境中开发。Java的环境问题,是困扰着每个程序员的噩梦。Java程序员,不仅要会写Java程序,还要会调linux,会配hadoop,启动hadoop,还要会自己运维。转载 2015-05-05 19:08:28 · 503 阅读 · 0 评论 -
用Maven构建Hadoop项目
转载出处:http://blog.fens.me/hadoop-maven-eclipse/前言Hadoop的MapReduce环境是一个复杂的编程环境,所以我们要尽可能地简化构建MapReduce项目的过程。Maven是一个很不错的自动化项目构建工具,通过Maven来帮助我们从复杂的环境配置中解脱出来,从而标准化开发过程。所以,写MapReduce之前,让我们先花点时间把转载 2015-05-05 19:01:25 · 1234 阅读 · 0 评论 -
Hadoop2.x深入详解
HDFS分布式文件系统详解 NameNode:是一个中心服务器,单一节点,负责管理文件系统的命名空间以及客户端对文件的访问;NameNode负责文件元数据的操作,DataNode负责处理文件内容的读写请求,跟文件内容相关的数据流不经过NameNode,只会询问他与哪一个DataNode联系,否则NameNode会成为系统的瓶颈;副本存放在哪些DataNode上有NameNode来控原创 2016-10-10 20:48:52 · 3489 阅读 · 0 评论