Hadoop笔记
文章平均质量分 76
椰子Tyshawn
你眼中的世界就是你自己的样子。
展开
-
Hdfs的JAVA客户端基本操作
连接HDFS和客户端public class HdfsUtil { public static void main(String[] args) throws IOException, InterruptedException, URISyntaxException {// 构造一个配置参数封装对象 Configuration conf = new Configuration();原创 2017-04-29 19:00:12 · 3221 阅读 · 0 评论 -
四、Mapreduce简介
Mapreduce是一个分布式的运算编程框架,核心功能是将用户编写的核心逻辑代码分布式地运行在一个集群的很多服务器上;一:为什么要用Mapreduce(1)海量数据在单机上处理因为硬件资源限制,无法胜任,因为需要采用分布式集群的方式来处理。(2)而一旦将单机版程序扩展到集群来分布式运行,将极大地增加程序的复杂度和开发难度(3)引入mapreduce框架后,开发人员可以将原创 2017-05-06 20:44:14 · 616 阅读 · 0 评论 -
三、Hadoop的RPC框架运行机制
一: RPC的基础概念 RPC,即Remote Procdure Call,中文名:远程过程调用; (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RP转载 2017-05-01 15:25:20 · 875 阅读 · 0 评论 -
二、HDFS
一:总的设计思想设计目标:提高分布式并发处理数据的效率(提高并发度和移动运算到数据)分而治之:将大文件、大批量文件,分布式存放在大量独立的服务器上,以便于采取分而治之的方式对海量数据进行运算分析;重点概念:文件切块,副本存放,元数据,位置查询,数据读写流二:HDFS的一些concept(概念)和特性(1)首先,它是一个文件系统,有一个统一的命名空间—原创 2017-04-30 12:16:39 · 396 阅读 · 0 评论 -
一、hadoop简介
hadoop基本概念(1)hadoop是用于处理(运算分析)海量数据的技术平台,且是采用分布式集群的方式;(2)hadoop两个大的功能 a、提供海量数据的存储服务 b、提供分析海量数据的编程框架及运行平台(3)hadoop有三大核心组件 a、HDFS----hadoop分布式文件系统海量数据的存储(集群服务) b、Map原创 2017-04-23 15:16:01 · 498 阅读 · 0 评论 -
在云服务器上部署分布式注意事项
一、修改云主机(centos)的主机名1. vi /etc/hosts2. vi /etc/sysconfig/network3. 输入以下命令:hostname 新主机名然后用ssh重新登录,就会显示新的主机名。二、实现服务器之间的互联1、如果是同一个账号下的服务器,可以通过私有ip进行互联。2、如果在不同账号下或者不同服务提供商的服务器,配置hosts文原创 2017-07-08 13:30:05 · 2742 阅读 · 0 评论 -
Hadoop集群安装部署---单节点伪分布式
一:lunux服务器环境配置1、设置静态ip(manual)IP地址:192.168.77.70子网掩码:255.255.255.0网关:192.168.77.22、修改主机名:vi /etc/sysconfig/network3、ip地址与主机名对应:vi /etc/hosts4、关闭图形化界面vi /etc/inittab将i原创 2017-05-13 19:15:24 · 672 阅读 · 0 评论 -
Hadoop集群安装部署---从单节点的伪分布式扩展为多节点分布式
Hadoop集群安装部署---单节点伪分布式一:slave环境配置1、设置静态ip(manual)master:IP地址:192.168.77.70子网掩码:255.255.255.0网关:192.168.77.2slave:IP地址:192.168.77.80子网掩码:255.255.255.0网关:192.168.77.22、原创 2017-05-13 19:52:04 · 1774 阅读 · 0 评论 -
Mapreduce二次排序实例
Mapreduce可以简单的分为三个阶段:map阶段、shuffle阶段、reduce阶段。shuffle阶段包括分区、分组两个步骤,二次排序发生在分区步骤。分区:通过分区函数将满足条件的分在同一个区(第一次排序)。同一个区的数据然后再排序(第二次排序)。分区是对key进行操作。分组:将相同key值的value整合成一个集合()实例:有一张phone表,包含mac、time原创 2017-08-21 13:36:26 · 873 阅读 · 0 评论 -
五、Yarn
一:简介Yarn是hadoop的资源管理调度平台(集群)------为用户程序提供运算资源的管理和调度。用户程序:如用户开发的一个Mapreduce程序。Yarn有两类节点(服务进程):1、resourcemanager 主节点master------只需要1个来工作2、nodemanager 从节点------根据集群规模可以有很多个原创 2017-05-07 15:29:21 · 792 阅读 · 0 评论 -
Hadoop的RPC框架应用示例
RPC框架的jar包:hadoop-2.4.1\share\hadoop\common\hadoop-common-2.4.1.jarhadoop-2.4.1\share\hadoop\common\lib\所有jar包服务器端code:协议类:/* * 接口是网络通讯双方共同遵守的约定,或者叫协议 */public interface DemoN原创 2017-05-01 13:23:17 · 450 阅读 · 0 评论 -
Mapreduce实例---流量汇总(自定义类)
一:问题介绍给一个数据文件,文件包含手机用户的各种上网信息,求每个手机用户的总上行流量,总下行流量和总流量。数据流程:二:需要的jar包hadoop-2.4.1\share\hadoop\hdfs\hadoop-hdfs-2.4.1.jarhadoop-2.4.1\share\hadoop\hdfs\lib\所有jar包hadoop-2.4.原创 2017-05-05 18:04:28 · 923 阅读 · 1 评论 -
Mapreduce实例---连表查询(join)
一:问题介绍订单详情表 detail order_id item_id amount 12 sp001 2 12 sp002 412 sp003原创 2017-05-10 23:23:06 · 2020 阅读 · 0 评论 -
Mapreduce实例---统计单词个数(wordcount)
一:需要的jar包Hadoop-2.4.1\share\hadoop\hdfs\hadoop-hdfs-2.4.1.jarhadoop-2.4.1\share\hadoop\hdfs\lib\所有jar包hadoop-2.4.1\share\hadoop\common\hadoop-common-2.4.1.jarhadoop-2.4.1\share\hadoop\common原创 2017-05-03 20:51:32 · 49756 阅读 · 4 评论 -
Mapreduce实例---倒排索引(含job串联)
一:问题介绍统计每一个单词在各自文件中出现的总次数。原始数据:a.txthello tomhello jerryhello tomb.txthello jerryhello jerrytom jerryc.txthello jerryhello tom输出结果:hello a.txt-->3原创 2017-05-11 19:22:48 · 524 阅读 · 0 评论 -
Mapreduce实例---分区流量汇总
一:问题介绍给一个数据文件,文件包含手机用户的各种上网信息,求每个手机用户的总上行流量,总下行流量和总流量;并且按号码归属地分省份汇总。数据流程二:需要的jar包hadoop-2.4.1\share\hadoop\hdfs\hadoop-hdfs-2.4.1.jarhadoop-2.4.1\share\hadoop\hdfs\lib\所有jar包原创 2017-05-06 15:02:18 · 1097 阅读 · 0 评论 -
Mapreduce实例---流量汇总并按流量大小倒序排序
一:问题介绍给一个数据文件,文件包含手机用户的各种上网信息,求每个手机用户的总上行流量,总下行流量和总流量;并且结果按总流量倒序排序。第一步:Mapreduce实例---流量汇总(flowcount)第二步:排序。(也就是现在要做的事情)二:代码自定义流量类:实现WritableComparable接口public class FlowBean implem原创 2017-05-06 16:08:18 · 2853 阅读 · 0 评论 -
Hdfs读写数据流程
一:Hdfs读数据流程1、跟namenode通信查询元数据,找到文件块所在的datanode服务器2、挑选一台datanode(就近原则,然后随机)服务器,请求建立socket流3、datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)4、客户端以packet为单位接收,先在本地缓存,然后写入目标文件二:Hdfs写数据原创 2017-04-29 19:20:46 · 4298 阅读 · 0 评论 -
Mapreduce实例---共同好友
一:问题介绍原始数据:每个人的好友列表A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J……原创 2017-05-09 23:15:16 · 1658 阅读 · 0 评论 -
ZooKeeper集群搭建
搭建要求:(1) 安装JDK.(2) ZooKeeper服务器集群规模不小于3个节点(必须是奇数台).(3)注意下面的主机名master/slave01/slave02 与ip地址进行了映射, 没有设置的就用ip地址代替. 在master主机上实现下面步骤:1、上传zookeeper安装包2、解压安装包到安装目录,并重新命名3、设置环境变量执行命令: v...原创 2017-05-14 00:07:20 · 566 阅读 · 0 评论