storm
老乔家大哥
大数据
展开
-
spark入门之wordcount
曾经哥也学过scala,spark。下面为helloworld案例:1. wordcount只需两行代码,其实还可压缩成一行。就完成了词频统计,确实编码效率高啊2. sparksql创建sql的上下文,导包,读文件,生成RDDRDD转化成表,查询条件查询,打印结果现在好像都不用shark了,都改用sparksql了。不过南京这边,hadoop还是重头戏。原创 2014-12-16 14:32:46 · 1137 阅读 · 0 评论 -
分布式文件系统HDFS名字节点
本节讨论的都在hdfs工程中server.namenode包下名字节点维护两个重要关系:1. 文件系统的文件目录树,文件的数据块索引(文件与数据块的对应列表)2. 数据块与数据节点(datanode)的对应关系一 文件系统目录树1. 主要的类INode是hdfs对文件和目录的抽象,早期版本是保存了文件和目录的名称name这一属性的,在2.X版本中,没有这个属性了。INod原创 2014-12-13 18:50:11 · 1954 阅读 · 0 评论 -
分布式文件系统HDFS名字节点(续)
接着上篇的数据块和数据节点管理,都在blockmanager包下面,FSNamesystem是在server.namenode包下面。知道为什么别的什么fs系列的都放在common工程的fs包下吗,因为FSNamesystem是特定HDFS文件系统的namenode中的内容,common放的是公共的东西,还有一些抽象出来的接口(此接口非彼接口)。1. 几个类第一关系中的INodeFile有原创 2014-12-14 10:26:32 · 1108 阅读 · 0 评论 -
Hadoop RPC
终于进入RPC模块了,网上有很多基于早期hadoop的RPC机制分析,分析都很到位,今天我就带着大家走走源码(使用版本2.4.0)。本文采用深度遍历的方法分析源码,不知道你们习不习惯前奏:RPC是开发中抽出来的组件,如果不使用RPC,那么在分布式调用中流程是不是介个样子:服务器端是不是先创建ServerSocket在指定的ip地址和端口上监听,客户端创建到远程连接的Socket;好了,so原创 2014-12-08 12:17:03 · 1063 阅读 · 0 评论 -
Hadoop RPC(续)
接着上一篇来看server端在看之前,我们想象一下,服务器端肯定要启动服务,在端口上监听,读取客户端的连接请求和请求数据并处理,最后返回。依次涉及的类:Listener,Connection,Call,Handler,Responser;这些类都是Server的内部类。HDFS分析篇我们知道NameNode,DataNode中有RPC服务的启动,我们从NameNode的main方法开始看,能发原创 2014-12-09 09:51:21 · 1415 阅读 · 1 评论 -
HDFS源码解析(三)
本人博客针对的是hadoop2版本,比1版本略为复杂(采用了很多当下流行的设计模式,加入了新的序列化框架,ha配置,联邦特性,yarn框架,以及采用maven的工程划分结构等)。网上的源码分析大多针对的是1版本,由于是针对源码写出自己的理解,难免有错误或不当的地方,欢迎指正前面两篇主要讲了namenode,现在来说说datanode。好了,直接打开idea,进入DataNode首先我来原创 2014-12-06 17:01:11 · 839 阅读 · 0 评论 -
HDFS源码解析(二)
上一篇讲到了namenode的格式化,这一节来说说 hdfs文件系统对于hadoop集群,master节点存储3种类型元数据:文件和数据块的命名空间,文件和数据块的对应关系,每个数据块副本的存放地点。所有的元数据都保存在内存中,前两种类型也会以记录变更日志的方式记录在系统日志文件中。文件系统的存储和管理都交给了FSNameSystem类,我们就看看他的注释:/*************原创 2014-12-06 13:50:41 · 892 阅读 · 1 评论 -
Hadoop RPC热身之Java 反射
首先感谢各位同事,同学给我提了很多宝贵的意见。我的想象中文章思路是将概念的来龙去脉,原理以及用法让大家记住。现在还有点不够,继续努力吧。今天就来谈谈反射(reflection)机制,首先反射的概念是八十年代提出来的,意思就是我能不能动态的去修改程序的状态和行为。我们知道java,C++,C#不是动态语言;python,ruby是动态语言。但是反射机制让java能够在运行时对自身做检查,直白点就原创 2014-12-08 10:16:52 · 1242 阅读 · 0 评论 -
Hadoop RPC热身之Java 动态代理
还是那句话,不喜勿喷原创 2014-12-07 16:31:49 · 1213 阅读 · 3 评论 -
HDFS源码解析(一)
鄙人不才,日后将自己对hadoop的源码理解分模块的记录下来,不喜勿喷原创 2014-12-06 11:24:16 · 1399 阅读 · 0 评论 -
Hadoop RPC热身之Java NIO
不喜勿喷,欢迎提出意见原创 2014-12-06 22:29:10 · 1460 阅读 · 0 评论