自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程裕强的专栏

学习笔记(1.01^365=37.78,0.99^365=0.025)

原创 Hadoop基础教程-第6章 MapReduce入门(6.4 MapReduce程序框架)(草稿)

第6章 MapReduce6.4 MapReduce程序框架6.4.1 模版框架我们知道,从单线程编程到多线程编程,程序结构复杂度增大了。类似的,从单机程序到分布式程序,程序结构的复杂度也增大了。这是问题的复杂环境决定的。 所以,很多初学者更接触分布式编程时,望而却步、知难而退了。可事实上,Hadoop是一个很易用的分布式编程框架,经过良好封装屏蔽了很多分布式环境下的复杂问题,因此,对普通开发者来

2017-05-29 21:21:46 2893

原创 Hadoop基础教程-第6章 MapReduce入门(6.3 加速WordCount)(草稿)

第6章 MapReduce6.3 加速WordCount6.3.1 问题分析MapReduce的性能很大程度受限于网络宽带,当map输出中间结果很大时,然后通过网络将中间结果传递给reduce方法,这时MapReduce的性能较差。通过对WordCount程序分析,大家可能已经发现其中存在一个很“笨”的问题:map方法输出值是<word,1>形式,如果map方法处理的文本很大,则输出的<word

2017-05-29 16:59:23 1602

原创 Hadoop基础教程-第6章 MapReduce入门(6.2 解读WordCount)(草稿)

第6章 MapReduce入门6.2 解读WordCountWordCount程序就是MapReduce的HelloWord程序。通过对WordCount程序分析,我们可以了解MapReduce程序的基本结构和执行过程。6.2.1 WordCount设计思路WordCount程序很好的体现了MapReduce编程思想。 一般来说,本文作为MapReduce的输入,MapReduce会将文本进行切分

2017-05-28 17:50:08 2655

原创 Hadoop基础教程-第6章 MapReduce入门(6.1 MapReduce介绍)(草稿)

第6章 MapReduce6.1 MapReduce介绍本节将介绍Hadoop的分布式计算框架:MapReduce。6.1.1 MapReduce来历MapReduce最早来源于谷歌公司的一篇学术论文,是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法,当时主要是为了解决其搜索引擎中大规模网页数据的并行化处理。但由于MapReduce可以普遍应用于很多大规模数据的计算问题,因此

2017-05-27 20:43:47 2214

原创 Hadoop基础教程-第5章 YARN:资源调度平台(5.6 YARN的命令)(草稿)

[root@node1 ~]# yarnUsage: yarn [--config confdir] [COMMAND | CLASSNAME] CLASSNAME run the class named CLASSNAME or where COMMAND is one of: resourcemanager -format-

2017-05-26 20:59:50 2380 1

原创 Hadoop基础教程-第5章 YARN:资源调度平台(5.5 YARN的调度器)(草稿)

第5章 YARN:资源调度平台5.5 YARN的调度器打个比方,Hadoop相当于一台虚拟计算机(由多台计算机构造的集群),那么HDFS就是这台虚拟计算机的文件系统,管理磁盘资源;而YARN负责管理虚拟计算机的CPU和内存资源。在YARN上跑的MapReduce程序(比如5.4节跑的PI和wordcount两个应用程序)就是在这台虚拟计算机跑的应用程序,需要磁盘、内存和CPU等资源。...

2017-05-23 23:10:38 1147

原创 Hadoop基础教程-第5章 YARN:资源调度平台(5.4 YARN集群运行)(草稿)

第5章 YARN:资源调度平台5.4 YARN集群运行HDFS已经启动[root@node1 ~]# jps2247 NameNode2584 Jps2348 DataNode[root@node2 ~]# jps2279 Jps2137 DataNode2201 SecondaryNameNode[root@node3 ~]# jps5179 DataNode7295 Jps5.4

2017-05-23 20:57:57 1254

原创 Hadoop基础教程-第5章 YARN:资源调度平台(5.3 YARN集群配置)(草稿)

第5章 YARN:资源调度平台5.3 YARN集群配置5.3.1 yarn-site.xml<?xml version="1.0" ?><configuration> <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>1536</value> </property> <property

2017-05-23 18:46:31 1384

原创 Hadoop基础教程-第5章 YARN:资源调度平台(5.2 YARN参数解读与调优)

第5章 YARN:资源调度平台5.2 YARN参数解读与调优yarn-site.xml文件默认参数: http://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-common/yarn-default.xml5.2.1 ResourceManager相关配置参数 参数 默认值 说明 yarn.resourcemanager

2017-05-23 15:39:40 1251

原创 Hadoop基础教程-第5章 YARN:资源调度平台(5.1 YARN介绍)(草稿)

第5章 YARN:资源调度平台5.1 YARN介绍YARN的全称是Yet Another Resource Negotiator,意为另一种资源调度者。 从Apache Hadoop 2.0开始, Hadoop包含 YARNYARN的基本思想是将资源管理和作业调度/监控的功能分为独立的守护进程。这个想法是拥有一个全局ResourceManager(RM)和每个应用程序ApplicationMas

2017-05-21 22:08:27 2252

原创 Hadoop基础教程-第4章 HDFS的Java API(4.7 Java API封装类)(草稿)

第4章 HDFS的Java API4.7 Java API封装类package cn.hadron.hdfsDemo;import java.io.IOException;import java.io.InputStream;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf

2017-05-21 21:25:15 1642 1

原创 Hadoop基础教程-第4章 HDFS的Java API(4.6 Java API应用)(草稿)

第4章 HDFS的Java API4.6 Java API应用4.6.1 上传文件先在本地(客户端)一个文件,比如在D盘下新建一个word2.txt文件,内容随便写testnode nodeHadoop Hadoop在Eclipse中编写Java程序package cn.hadron.hdfsDemo;import java.net.URI;import org.apache.hadoop.

2017-05-20 09:39:16 1598

原创 Hadoop基础教程-第4章 HDFS的Java API(4.5 Java API介绍)

第4章 HDFS的Java API4.5 Java API介绍4.5.1 Java API 官网Hadoop 2.7.3 Java API官方地址 http://hadoop.apache.org/docs/r2.7.3/api/index.html 如上图所示,Java API页面分为了三部分,左上角是包(Packages)窗口,左下角是所有类(All Classes是)窗口,右侧是详情窗口。

2017-05-18 22:50:34 1321

原创 Hadoop基础教程-第4章 HDFS的Java API(4.4 Windows+Eclipse+HDFS快速入门)

第4章 HDFS的Java API4.4 Java 读取HDFS文件前面4.1到4.3节的准备工作,本节正式进入HDFS的Java API 部分4.4.1 数据准备通过HDFS 命令方式将本地words.txt文件上传到HDFS上[root@node1 ~]# hdfs dfs -put /root/words.txt input[root@node1 ~]# hdfs dfs -ls /user

2017-05-17 22:44:25 1847 6

原创 Hadoop基础教程-第4章 HDFS的Java API(4.3 pom.xml解析)

第4章 HDFS的Java API4.3 pom.xml解析4.3.1 Maven库https://mvnrepository.com/4.3.2 添加Hadoop的依赖在pom.xml文件里添加hadoop的依赖包hadoop-common, hadoop-client, hadoop-hdfs 在搜索框中输入hadoop-common,单击“Search”按钮 单击“Apache Had

2017-05-16 22:54:05 3651

原创 Hadoop基础教程-第4章 HDFS的Java API(4.2 Eclipse+Maven)

第4章 HDFS的Java API4.2 Eclipse+Maven4.2.1 Eclipse的Maven配置目前的eclipse-javee版本已经自带maven插件了 winows–&gt;preferences–&gt;左边maven 在Maven下选择“Installations”,右边窗口中单击“Add”按钮 单击“Directory”按钮,选择Maven安装目录,单击“Finish”按钮

2017-05-15 21:59:11 1553 3

原创 Hadoop基础教程-第4章 HDFS的Java API(4.1 Maven入门)

第4章 HDFS的Java API4.1 Maven入门参考文章:https://my.oschina.net/huangyong/blog/1945834.1.1 Maven简介Apache Maven是一个软件项目管理和综合工具,通过它便捷的管理项目的生命周期。即项目的jar包依赖,开发,测试,发布打包。4.1.2 Maven下载http://maven...

2017-05-14 21:51:45 4053

原创 Hadoop基础教程-第3章 HDFS:分布式文件系统(3.5 HDFS基本命令)(草稿)

第3章 HDFS:分布式文件系统3.5 HDFS基本命令HDFS命令官方文档: http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html3.5.1 用法[root@node1 ~]# hdfs dfsUsage: hadoop fs [generic options] [-

2017-05-14 21:42:19 1325

原创 Hadoop基础教程-第3章 HDFS:分布式文件系统(3.4 HDFS集群模式)

第3章 HDFS:分布式文件系统3.4 HDFS集群模式 节点 IP 角色 node1 192.168.80.131 NameNode,DataNode node2 192.168.80.132 SecondaryNameNode,DataNode node3 192.168.80.133 DataNode

2017-05-14 19:55:33 1765 11

原创 Hadoop基础教程-第3章 HDFS:分布式文件系统(3.3 HDFS参数解读)

第3章 HDFS:分布式文件系统3.3 HDFS参数解读3.3.1 官方文档Hadoop官方文档地址: http://hadoop.apache.org/docs/r2.7.3/由于Hadoop相关参数页面需要通过FireFox浏览器打开,这里需要你先安装FireFox浏览器。下拉页面,可以在页面左下角找到“Configuration”,其下面有core-site.xml、hdfs-site.xm

2017-05-14 17:19:34 1460

原创 Hadoop基础教程-第3章 HDFS:分布式文件系统(3.2 HDFS文件读写)

第3章 HDFS:分布式文件系统3.2 HDFS文件读写3.2.1 文件访问权限针对文件和目录,HDFS有与POSIX非常相似的权限模式。 一共提供三类权限模式:只读权限(r)、写入权限(w)和可执行权限(x)。读取文件或列出目录内容时需要只读权限。写入一个文件,或是在一个目录上创建及删除文件或目录,需要写入权限。对于文件而言,可执行权限可以忽略,因为你不能在HDFS中执行文件(与POSI

2017-05-14 16:45:58 2218 2

原创 Hadoop基础教程-第2章 Hadoop快速入门(2.5 WordContent简单应用)

第2章 Hadoop快速入门2.5 WordContent简单应用Hadoop的HelloWorld程序2.5.1 创建HDFS目录hdfs命令位于bin目录下,通过hdfs dfs -mkdir命令可以创建一个目录。[root@node1 hadoop-2.7.3]# bin/hdfs dfs -mkdir -p inputhdfs创建的目录默认会放到/user/{username}/目录下面,其

2017-05-12 21:09:39 2002

原创 Hadoop基础教程-第2章 Hadoop快速入门(2.4 Hadoop单机运行)

第2章 Hadoop快速入门2.4 Hadoop单机运行紧接上一节内容,首先切换到Hadoop根目录 或者cd /opt/hadoop-2.7.3进入Hadoop根目录 通过pwd命令可以知道当前所在目录[root@node1 hadoop-2.7.3]# pwd注意:本节命令都将在/opt/hadoop-2.7.3目录下执行。2.4.1 namenode格式化[root@node1 hadoo

2017-05-11 23:14:53 2297

原创 Hadoop基础教程-第2章 Hadoop快速入门(2.3 Hadoop单机配置)

第2章 Hadoop快速入门2.3 Hadoop单机运行2.3.1 修改hadoop-env.shHadoop的配置文件存放于Hadoop根目录下的etc/hadoop目录,进入该目录 通过vi hadoop-env.sh命令来编辑hadoop-env.sh脚本文件 在第25行左右可以找到export JAVA_HOME=${JAVA_HOME}内容 将改行修改为export JAVA_HOM

2017-05-11 22:58:27 2089

原创 Hadoop基础教程-第2章 Hadoop快速入门(2.2 Hadoop下载与安装)

2.1 Hadoop下载与安装2.1.1 官网下载打开Apache Hadoop官方网址http://hadoop.apache.org/单击左侧菜单“Releases”将打开发行版页面http://hadoop.apache.org/releases.html单击2.7.3版本下“binary”链接,将进入该版本的下载页面 单击最上方的建议链接: We suggest the follow

2017-05-11 21:32:59 3665

原创 Hadoop基础教程-第2章 Hadoop快速入门(2.1 Hadoop简介)

第2章 Hadoop快速入门2.1 Hadoop简介2.1.1 Hadoop编年史(1)2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。(2)2003 年 Google 发表了一篇技术学术论文关于 Google 文件系统(GFS)。GFS 也就是 Google File System,是 Google 公司为了存储海量搜索数据而设计的专用文件

2017-05-11 21:19:12 4131

原创 Hadoop基础教程-第1章 环境安装配置(1.7 目录规划)

第1章 环境安装配置1.7 目录规划1、总体规划软件安装目录:/opt数据目录:/var/data日志目录:/var/log2、hadoop相关目录:按照上面规划,hadoop相关目录如下:软件安装目录:/opt/hadoop2.7数据目录:/var/data/hadoop/var/data/hadoop/name/var/data/hadoop/datanode/var/data/hadoo

2017-05-09 23:17:35 1856

原创 Hadoop基础教程-第1章 环境安装配置(1.6 SSH免密登录)

第1章 环境安装配置1.6 SSH免密登录1、XShell的一个技巧当多台虚拟机需要执行相同命令时,可以单击XShell右下角的“三条横杠”按钮,选择“全部会话”,这时XShell下方的输入框将显示提示“发送文本到当前XShell窗口的全部会话”比如在XShell下方输入框输入data命令回车后,将该date命令同时发送到node1、node2和node3。这时可以看到其他两个会话标签多了个叹号提示

2017-05-09 22:39:05 2056 3

原创 Hadoop基础教程-第1章 环境安装配置(1.5 构建集群)

第1章 环境安装配置1.5 构建集群1、集群概念根据百度的解释: 集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。服务器集群是一种提升服务器整体计算能力的解决方案。它是由互相连接在一起的服务器群所组成的一个并行式或分布式系统。服务器集群中的服务器运行同一个计算任务。

2017-05-08 21:44:14 1923

原创 Hadoop基础教程-第1章 环境安装配置(1.4 CentOS 基本配置)

第1章 环境安装配置1.4 CentOS 基本配置1、修改hostsvi /etc/hosts[root@localhost ~]# vi /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost loca...

2017-05-07 20:49:16 2046

原创 Hadoop基础教程-第1章 环境安装配置(1.3 XShell安装与配置)

第1章 环境安装配置1.3 XShell安装与配置1、下载XShell单击“普通下载”,即可下载。2、安装XShell1)双击下载的Xshell_5.0.0.37_setup.1459931786.exe2)选择“免费为家庭/学校”3)接受协议,单击“下一步”按钮4)默认安装目录即可,单击“下一步”按钮5)默认选项,单击“下一步”按钮6 )语言选择简体中文“Chinese (Simplified)

2017-05-07 20:16:22 2331

原创 Hadoop基础教程-第1章 环境安装配置(1.2 安装Linux虚拟机)

1.2 安装Linux虚拟机1.2.1 选择Ubuntu还是CentOSUbuntu适合桌面环境,CentOS适合服务器环境1.2.2 下载CentOS1)打开CentOS官网,进入下载页面https://www.centos.org/download/ DVD ISO:可以刻录一张普通DVD光盘。Everything ISO:需要刻录多张DVD光盘,包含了所有软件包,适合不能访问互联网的环境。

2017-05-07 16:36:39 2816 4

原创 Hadoop基础教程-第1章 环境安装配置(1.1 安装VMware)

1.1 安装VMware1、 下载VMware2、 安装VMware1) 双击刚才下载的VMware-workstation-full_12.5.5.17738.exe文件,将弹出VMware安装向导界面 2) 勾选“我接受许可协议中的条款” 3)自定义安装,可以选择VMware软件安装位置,此处选择默认安装目录即可,单击“下一步” 4)取消默认勾选项 ...

2017-05-07 16:14:48 2104

提示
确定要删除当前文章?
取消 删除