
Hadoop
文章平均质量分 78
sherri_du
这个作者很懒,什么都没留下…
展开
-
(2-3)DateNode+小结HDFS
DateNode 提供真实文件数据的存储服务。 文件块(block):最基本的存储单位。【为了保证数据的读写比较快,将数据切成块】对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是128MB,以一个256MB文件,共有256/128=2个Bl原创 2016-01-10 11:32:55 · 959 阅读 · 0 评论 -
5-3 hadoop集群搭建
在我们伪分布式里面hdfs老大只有一个,现在,hdfs为了高可靠性,要有多个namenode【如果一个namenode死了之后,整个就瘫痪了】,进行实时切换,hadoop2.0把namenode进行了一个抽象,变成了一个nameservice,在一个nameservice里面,有两个namenode。但是,有两个namenode是不是得有个“人”来协调,否则要不都是ac原创 2016-02-26 19:23:04 · 449 阅读 · 0 评论 -
5-2 搭一个zookeeper集群
在第一个已经启动起来的zookeeper,如果停止,用./zkServer.sh stop如果要搭集群,那么一定要修改配置文件:在conf里面的zoo.cfg里修改:vim zoo.cfg详细解释zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg,需要将其修改为zoo.cfg。其中各配置项的含义,解释如下:原创 2016-02-26 16:43:28 · 491 阅读 · 0 评论 -
5-1Zookeeper介绍
hadoop官方提供的包是在32位的,如果要64的需要自己编译# 如果是租用的云主机(华为云主机,阿里云主机) /etc/hosts一定要配内网IP地址和主机名的映射关系集群规划:主机名 IP安装的软件 运行的进程itcast01 192.168.1.201 jdk、hadoopNameNode、DFSZKFailoverControlleritca原创 2016-02-26 15:01:03 · 435 阅读 · 0 评论 -
3-1MapReduce原理,原理图要记住
MapReduce是分布式计算编程模型。【就是每个人的业务都可用】。只要我实现具体的业务逻辑即可,底层的细节不需要我关心。Google在2004年提出了这种模型,非常简单即可实现分布式计算模型。 面试题:我有一个1G的文件,有许多数,用空格分隔,机器的内存只有1M 我怎样将这样的数据计算出来? 方法:我把文件切分成1024分原创 2016-02-01 23:37:42 · 545 阅读 · 0 评论 -
2-6 Java类加载器总结
1.类的加载过程 JVM将类加载过程分为三个步骤:装载(Load),链接(Link)和初始化(Initialize)链接又分为三个步骤,如下图所示:1) 装载:查找并加载类的二进制数据;2)链接:验证:确保被加载类的正确性;准备:为类的静态变量分配内存,并将其初始化为默认值;解析:把类中的符号引用转换为直接引用;3)初始转载 2016-02-01 20:12:12 · 277 阅读 · 0 评论 -
2-6HDFS读取数据的过程+下一篇类加载器(未完)
我们在centos下打开JPS,看到有几个进程,如果我们设置断点了的话,【设置短点跳出,右键选clone session不知道在哪】是在jps看到进程里面有RPCClient的。这说明,namenode,datanode这些都是一个类!在eclipse里面打开Ctrl+shift+T 可以查找类找到namenode之后,我们开始关联源码,在这里,我们先去搜索下载一个hado原创 2016-02-01 19:54:54 · 377 阅读 · 0 评论 -
ubuntu安装JDK
1.下载首先,当然是要下载了。地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html2上传(将压缩包通过U盘拷贝到虚拟机上)3解压jdk#创建文件夹mkdir /usr/java#解压到指定目录tar -zxvf jdk-7u79原创 2016-01-04 14:50:03 · 351 阅读 · 0 评论 -
Hadoop配置修改 ubuntu版
重启虚拟机reboot 1 修改主机名:vim /etc/hostname (删除原来的修改为)HOSTNAME=itcast012 修改映射关系: vim /etc/hosts 直接写入 192.168.8.88 itcast013 关闭防火墙:ufw disable 查看原创 2016-01-04 15:01:15 · 718 阅读 · 0 评论 -
安装Hadoop,启动hadoop(每次都用),设置免密码登陆
安装hadoop2.4.1 1、上传一个Hadoop包 2、解压Hadoop包 mkdir /itcast根目录下创建一个文件,以后Hadoop统一放入其中 tar -zxvf hadoop-2.2.0-64bit.tar.gz -C /itcast/ (解压到指定目录)原创 2016-01-04 15:44:13 · 17405 阅读 · 2 评论 -
Hadoop配置修改 centos版
1修改主机名vim /etc/sysconfig/networkNETWORKING=yes HOSTNAME=itcast01 ### 2修改IP两种方式:第一种:通过Linux图形界面进行修改(强烈推荐)(这个我配置不成功,不清楚原因,我推荐用代码修改)进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit原创 2016-01-06 21:13:12 · 831 阅读 · 0 评论 -
(2-1)HDFS( 分布式文件系统和hdfs shell)
分布式文件系统 Distributed File System 允许文件通过网络在多台主机上分析的文件系统,可让多台机器上的多台用户分享文件和存储空间。 通透性:让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。 容错:即使系统中某些节点脱机,整体来说系统仍然可以持续运作,而不会有数据原创 2016-01-06 22:03:39 · 625 阅读 · 0 评论 -
(2-4)HDFS的Java接口,上传,下载,创建文件,删除文件
HDFS的Java接口 需要使用linux的图形界面,需要登录到eclipse 一般情况下,我们写大量数据的时候用的还是Java接口,我们使用的shell只进行一些简单的操作(删除,查看上传是否成功) 因此,我们采用Java接口的方式来操作HDFS。【我们在Linux下开发,因此一定要使用图形界面】 因此,学hado原创 2016-01-11 20:30:15 · 2604 阅读 · 0 评论 -
(2-5)hadoop-rpc远程过程调用系统
学完了Java接口后,本节学习RPC(remote procedure call)远程过程调用协议。就是——不同进程之间的方法调用webservice是什么:HTML+xml (跨语言,跨平台,系统间调用的解决方案)假设我们有一个OA项目,用Java语言写的,另外有一个项目,CRM项目,用.NET语言写的。现在我要在两个系统之间整合起来:OA想要CR原创 2016-01-28 17:33:03 · 676 阅读 · 0 评论 -
3-3 wordcount代码编写 mapper+reducer,wordcount
来个A业务要写mapreduce,来一个B业务又写mapreduce,适用性不是很好,以后会学到框架会很爽,只要发一个语句就可以完成mapreduce,但是mapreduce是它的基础面试:mapreduce是什么东西?它的执行流程是什么?它出现问题怎么办?等等。。打开eclipse,往那个项目里导入mapreduce相关的jar包,复制到hadoop0原创 2016-02-07 00:46:04 · 1310 阅读 · 0 评论 -
3-2 wordcount执行流程 wordcount流程
mapper和reducer输入和输出都是以(key,value)形式的Group,分组,按照key2来分组,然后将v2放在一个集合中,作为一个value如果我们想实现mapreduce模型,只需要重写map方法和reduce方法即可,适合各种业务。mapreduce执行过程:map任务:1.读取文件内容,一行内容解析成一个key,value【怎原创 2016-02-01 23:40:19 · 1252 阅读 · 1 评论 -
hadoop开发—Java零基础,开发选择什么开发工具比较合适
转载:http://www.aboutyun.com/thread-6892-1-1.html本文为解疑贴:可以带着下面问题来阅读本文:1.你对下面的开发工具了解多少?2.下面那些常用开发工具?思考:在你想开发hadoop的时候,你认为自己会碰到什么问题?零基础还可以查看:零基础Java开发hadoop环境需要考虑的问题首先我转载 2016-01-10 21:15:21 · 644 阅读 · 0 评论 -
2-2HDFS的架构
HDFS的架构(HDFS architecture)Namenode:负责管理DataNode:存储数据Secondary NameNode:一个Namenode的秘书 当一个客户端client想读取数据时:首先跟namenode打交道,获取一些“元数据”Metadata。原创 2016-01-09 15:41:55 · 457 阅读 · 0 评论