- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 Flume初介绍和命令行使用
Flume:cloudera提供的高可用的、高可靠的、分布式的海量日志采集、聚合、和传输系统。Flume 的设计目标:可靠性:当节点出现故障时,日志能够被传送到其他节点而不会丢失。 flume提供了三种可靠性保障: end to end (仅一次)store on failoure (当数据接收方crash时,将数据写道本地,待恢复后继续发送)best effort (数据发送到接收方后,
2016-06-30 16:51:39 5536
原创 hadoop DataNode节点超时
DataNode节点超时时间设置DataNode进程死亡或网络节点故障造成DataNode无法与NameNode通信,NameNode不会立即把该节点判定为死亡,要经过一段时间,这段时间成为超时时长。HDFS默认的超时时长为10分钟+30s。 如果定义超时时长为timeout,则超时时长的计算公式为: timeout = 2 * heartbeat.recheck.interval + 10 *
2016-06-25 18:53:34 1534
原创 Hadoop 序列化
在第一步中, 客户端编写好了代码并打包成jar包,会提交到集群中,也就是Cluster中,通讯方式就是通过RPC来通讯的。(RPC的一个最简单示例) 当集群收到请求后,就会告诉yarn,请求分配资源。当yarn处理之后,会返回一个地址给client(第二步)。客户端去这个地址拷贝jar包(第三步)。 第四步 就是提交任务给RM,主要提交的是任务的描述信息,比如jobID、jar包存在的位置、配置
2016-06-25 18:32:56 585
原创 hadoop HDFS
hadoop主要分为三个模块:HDFS、MapReduce、Yarnhadoop具体能干什么:hadoop擅长日志分析海量数据存储 hadoop具有很多节点,节点叫DataNode。 每一个块在节点上存多个副本。海量数据计算 map本地局部处理。 reduce通过网络取得其他节点的统计结果。HDFS的实现思想:hdfs是通过分布式集群来存储文件,为客户
2016-06-25 18:30:06 751
原创 Hadoop YARN
YARN的主要职责是做资源调度的。 resource manager —— node manager 节点 节点MAPREDUCE MRAppMaster —— yarnchild 动态产生出来的 动态产生出来的Yarn框架的主节点是resource manager,从节点是node manager 1. RunJar申请resource m
2016-06-25 18:28:58 1089
转载 Java面试题汇总
声明:有人说, 有些面试题很变态,个人认为其实是因为我们基础不扎实或者没有深入。本篇文章来自一位很资深的前辈对于最近java面试题目所做的总结归纳,有170道题目 ,知识面很广 ,而且这位前辈对于每个题都自己测试给出了答案 ,如果你对某个题有疑问或者不明白,可以电脑端登录把题目复制下来然后发表评论,大家一起探讨,也可以电脑端登录后关注我给我发私信,我们一起进步!以下内容来自这位前辈
2016-06-19 11:12:55 3849
原创 简单的Hadoop RPC实例
RPC:远程调用服务 假如有两个不同的项目A&B,A项目如果想调用B项目的接口,需要使用RPC。类似于webServers。新建maven project 如果eclipse中没有maven插件,可以安装一个。 help=>install new software=>work with=> add=>location:http://m2eclipse.sonatype.org/sites/
2016-06-13 16:11:44 1272 1
原创 Scala语言初入门
scala介绍Scala语言来自于Scalable(可伸缩的)既可以写一些小的脚本,又可以写一写复杂的服务器端的程序。Scala是一门纯正的面向对象语言,具有OO特征。Scala是一门函数式语言,可以用函数式思想来编写代码Scala是构建于JVM之上的,与java可以无缝互操作。函数式编程思想函数式编程基本名词介绍纯函数来编写程序。纯函数(Pure Function),或函数的纯粹性(P
2016-06-10 19:04:30 12333 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人