![](https://img-blog.csdnimg.cn/20200718130717283.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
文章平均质量分 92
Apache hadoop学习笔记
风向决定发行D
在读硕士
展开
-
Hadoop 2.4.0完全分布式安装和解决一些问题
参考https://blog.csdn.net/qq_43605654/article/details/90746563参考https://blog.csdn.net/weixin_50198333/article/details/108768630三台机器配置环境前期准备:JDK环境,修改主机名称,配置网络三个ssh相互之间免密码登陆的虚拟机node1,node2,node3.修改/etc/hosts文件安装三台虚拟机将hadoop2.4.0解压到/usr/local中。改名mv h原创 2021-06-28 20:06:18 · 229 阅读 · 2 评论 -
hadoop学习笔记(八)MapReduce应用程序执行过程及java程序编写
MapReduce应用程序执行过执行的MapReduce的程序会被部署到集群中去,Master负责作业调度,worker负责执行执行Map和Reduce任务从集群中选出执行Map任务的空闲机器,进行分片处理,然后进行mapmap任务读取输入数据,得到输出数据<key,value>得到的结果写入本地map机器的缓存,满了之后写入磁盘,并被划分为R个分区,Master会记录R个分区的位置,通知R个Reduce任务的Worker来领取属于自己处理的那部分分区Reduce任务的Worker原创 2020-07-30 19:46:08 · 781 阅读 · 0 评论 -
hadoop学习笔记(七)MapReduce原理与详细的执行阶段
分布式并行编程传统的分布式并行编程是共享存储,容错性低,硬件出错,整个集群瘫痪,价格贵等等MapReduce使用PC就可以成为集群,硬件价格低,将作业分散计算,再求和,而且hadoop整个集群容错性高,一台及群众的机器坏掉不会影响整个集群的工作。计算向数据靠拢数据向计算靠拢:完成一次数据分析,选择一个计算结点,把运行分析的数据放在计算结点上,然后把所涉及的数据拉到计算结点上,开始计算。大数据放在一个节点必然崩溃。计算项数据靠拢:将计算程序或者其应用程序分发到数据所在的程序,完成各个部分的计算原创 2020-07-22 23:47:18 · 850 阅读 · 0 评论 -
hadoop学习笔记(五)HBase的原理及概念模型
数据模型通过{“行键”,“列族” ,“列限定符”,“时间戳”}来确定一个单元格。概念模型行键按照字典序列进行排序用列anchor:cnnsi.com , anchor:my.look.ca或者contents:html来标识列从逻辑上讲,这是一个稀疏的映射关系表物理模型具体的物理存储采用了基于列的存储方式,会按照列族的不同分别存放两个片段,分成contents和anchor,列族中还包括时间戳和行键。逻辑上是空的地方不会单独用null存储,而是根本就不会被存储,也不会用null这个东原创 2020-07-17 09:13:02 · 962 阅读 · 0 评论 -
hadoop学习笔记(六)HBase的API
调用API所用的JAR包基本就是在/usr/local/hbase/lib下的所有jar包,最好不要倒入hadoop的jar包,没准会发生冲突。需要的类以及运行过程建立连接 public static void init()一系列操作关闭连接 public static void close()实例代码:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.ap原创 2020-07-18 13:19:34 · 173 阅读 · 0 评论 -
hadoop学习笔记(四)HBase的安装
habse原创 2020-07-15 22:27:03 · 332 阅读 · 0 评论 -
hadoop学习笔记(三)HDFS读写过程
读数据过程原创 2020-07-11 01:23:48 · 399 阅读 · 0 评论 -
hadoop学习笔记(二)HDFS文件系统
文件系统在计算机中有内存和外存,内存断电之后,数据就会流失,容量有非常有限,所以一般都配备磁盘这种外存,将数据存储到外存中,需要的时候在调入内存进行运算,外存也是一块磁盘,直接使用很不方便,所以在这之上覆盖了一层管理文件的系统就是文件系统,专门管理文件的存取,提高了操作系统的资源利用率。文件系统就是管理文件的,所以说,文件就是具有文件名和相关元素或者记录的集合。类似于传统关系数据库中的由多个数据项或字段组成的一条一条记录。例如,{id,name,number,age}等等。这就是记录式文件。比如关系型数原创 2020-07-09 00:54:31 · 438 阅读 · 0 评论 -
hadoop学习笔记(一)hadoop的安装与使用
hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。可以对大数据进行分布式处理的软件框架,核心是HDFS和MapReduce,hadoop生态圈也非常丰富,包括Hbase,FLume等等。学习hadoop知识储备Java编程基础Linux基本操作及Linux基本常识,发行版本为CentOS或UbuntuSSH协议原理及其C/S的使用了解分布式文件系统相关知识安装流程创建hadoop用户配置Java环境设置SSH登陆权限单机安装,伪分布式安装,完全分布原创 2020-06-26 23:15:09 · 724 阅读 · 0 评论