Hadoop
sunshingheavy
这个作者很懒,什么都没留下…
展开
-
Hadoop环境搭建
Hadoop环境搭建在前人的基础上自己写的,内容上有些借鉴!概述Hadoop是一个分布式系统基础架构,需要多台服务器才能有效工作。本文采用虚拟机模拟多台服务器的情况,server-1作为NameNode,server-2与server-3作为DataNode,简单介绍Hadoop环境的搭建步骤。重点介绍SSH协议免密码访问配置和NameNode ,DataNode的配置。虚拟服务器原创 2016-11-17 11:30:36 · 1027 阅读 · 0 评论 -
MapReduce篇之InputFormat
转自:http://www.cnblogs.com/shitouer/archive/2013/02/28/hadoop-source-code-analyse-mapreduce-inputformat.html[Hadoop源码详解]之一MapReduce篇之InputFormat个人小站,正在持续整理中,欢迎访问:http://shitouer.cn小站博文地转载 2016-11-21 10:16:27 · 273 阅读 · 0 评论 -
spark java 编程
这篇文章是翻译http://spark.apache.org/docs/latest/programming-guide.html官方的指导手册转载注明:ylf13@元子一、Overview概述在spark应用程序中,有一个Driver Program(驱动程序)来执行用户定义的main函数,并且在集群上执行各种并行操作。Spark主要提供的抽象层是RDD(转载 2016-12-05 11:07:25 · 1361 阅读 · 0 评论 -
Spark Standalone 原理
转自:http://www.kuqin.com/shuoit/20150213/344838.html背景本文不打算从源码分析的角度看standalone如何实现,甚至有的模块和类在分析中都是忽略掉的。本文目的是透过spark的standalone模式,看类似spark这种执行模式的系统,在设计和考虑与下次资源管理系统对接的时候,有什么值得参考和同通用的地方,比转载 2016-12-05 11:28:47 · 660 阅读 · 0 评论 -
Spark on YARN工作原理
转自:http://www.wtoutiao.com/p/2e82G8C.htmlSpark on YARN工作原理MapReduce on YARN的工作流程:加载数据,执行map,shuffle,reduce,将结果写入持久化存储。Spark on YARN的工作流程:spark中一个job包含多个stage,而非只有map和reduce转载 2016-12-05 11:30:21 · 1935 阅读 · 0 评论 -
kafka集群搭建和使用Java写kafka生产者消费者
kafka集群搭建和使用Java写kafka生产者消费者转自:http://chengjianxiaoxue.iteye.com/blog/2190488 1 kafka集群搭建 Java代码 1.zookeeper集群 搭建在110, 111,112 2.kafka使用3个节点110, 111,转载 2016-12-13 11:02:25 · 391 阅读 · 0 评论 -
pig简介
转自:http://www.aboutyun.com/thread-6713-1-1.htmlpig简介pig是hadoop上层的衍生架构,与hive类似。对比hive(hive类似sql,是一种声明式的语言),pig是一种过程语言,类似于存储过程一步一步得进行数据转化。pig简单操作 1.从文件导入数据 1)Mysql (Mysql需要先创建表)转载 2017-05-11 10:28:03 · 838 阅读 · 0 评论 -
pig自定义函数
转自:http://blog.csdn.net/zythy/article/details/18326693我们以气温统计和词频统计为例,讲解以下三种用户自定义函数。用户自定义函数什么时候需要用户自定义函数呢?和其它语言一样,当你希望简化程序结构或者需要重用程序代码时,函数就是你不二选择。Pig的用户自定义函数可以用Java编写,但是也可以用Python或JavaS转载 2017-05-11 10:57:23 · 334 阅读 · 0 评论 -
ZKFailoverController( zkfc)介绍
转自:http://blog.csdn.net/tzwjava/article/details/407427951.基本原理zk的基本特性:(1) 可靠存储小量数据且提供强一致性(2) ephemeral node, 在创建它的客户端关闭后,可以自动删除(3) 对于node状态的变化,可以提供异步的通知(watcher)zk在zkfc中可以提供的功能:转载 2017-06-21 15:21:31 · 449 阅读 · 0 评论 -
分布式服务框架 Zookeeper -- 管理分布式环境中的数据
转自:https://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/分布式服务框架 Zookeeper -- 管理分布式环境中的数据许 令波2010 年 11 月 18 日发布WeiboGoogle+用电子邮件发送本页面 1转载 2017-06-21 16:38:15 · 214 阅读 · 0 评论 -
彻底了解mapreduce核心Shuffle--解惑各种mapreduce问题
转自:http://www.aboutyun.com/thread-7078-1-1.html本文合适和对mapreduce有一定了解,并且产生各种问题的同学,算是一个解惑篇。如果刚接触的话,这篇文章很有可能看不下去。建议先了解Hadoop简介(1):什么是Map/ReduceMapReduce 编程模型概述mapreduce是hadoop的核心之一,mapre转载 2017-07-23 10:13:35 · 4864 阅读 · 0 评论 -
Scala泛型详解
转自:https://www.cnblogs.com/itboys/p/10164234.htmlScala泛型详解在Scala中你可以使用类型参数来实现类和函数,这样的类和函数可以用于多种类型。比如Array[T] 你可以存放任意指定类型T的数据.类、特质、函数都可以有类型参数;将类型参数放在名字后面用方括号括起来一 泛型类1.1Java 实现public class ...转载 2019-08-07 17:18:31 · 207 阅读 · 0 评论 -
Apache Spark入门攻略
【编者按】时至今日,Spark已成为大数据领域最火的一个开源项目,具备高性能、易于使用等特性。然而作为一个年轻的开源项目,其使用上存在的挑战亦不可为不大,这里为大家分享SciSpike软件架构师Ashwini Kuntamukkala在Dzone上进行的Spark入门总结(虽然有些地方基于的是Spark 1.0版本,但仍然值得阅读)—— Apache Spark:An Engine for L转载 2016-12-02 18:01:29 · 438 阅读 · 0 评论 -
MapReduce初级案例
转自:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述转载 2016-11-20 08:21:22 · 361 阅读 · 0 评论 -
【Hadoop】HDFS的运行原理
转自:http://www.cnblogs.com/laov/p/3434917.html简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,转载 2016-11-17 11:32:54 · 252 阅读 · 0 评论 -
hadoop SecondNamenode详解
hadoop SecondNamenode详解 2013-03-15 18:00:25分类: 云计算SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA。真正的了解了SecondNamenode以后,才发现事实并不是这样的。下面这段是Hadoop对Sec转载 2016-11-17 12:48:22 · 979 阅读 · 0 评论 -
如何将namenode与SecondaryNameNode分开配置
转自:http://www.aboutyun.com/thread-8146-1-1.html问题导读1.如何将namenode与SecondaryNameNode分开?2.SecondaryNameNode单独配置,需要修改那些配置文件?3.masters文件的作用是什么?我们这里假设你已经安装配置了hadoop2.2,转载 2016-11-17 12:49:42 · 3873 阅读 · 0 评论 -
<转>Hadoop入门介绍
Hadoop入门介绍 Hadoop这个名字不是一个缩写,它是一个虚构的名字。该项目的创建者,Doug Cutting如此解释Hadoop的得名:"这个名字是我孩子给一个棕黄色的大象样子的填充玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子是这方面的高手。Google就是由小孩命名的。 Hadoop 是一个能够对转载 2016-11-15 14:09:32 · 232 阅读 · 0 评论 -
<转>《Hadoop基础教程》之初识Hadoop
转自:http://blessht.iteye.com/blog/2095675《Hadoop基础教程》之初识Hadoop博客分类: 读后感 Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。转载 2016-11-15 13:52:59 · 314 阅读 · 0 评论 -
<转> hadoop学习之hadoop完全分布式集群安装
hadoop学习之hadoop完全分布式集群安装 转载请注明来自:转自:http://blog.csdn.net/ab198604/article/details/8250461 要想深入的学习Hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后转载 2016-11-15 14:11:58 · 319 阅读 · 0 评论 -
<转>hadoop学习之hadoop集群功能简单测试验证
hadoop学习之hadoop集群功能简单测试验证转自:http://blog.csdn.net/ab198604 前几天对Hadoop分布式集群的安装过程进行了总结,对hadoop的集群搭建只是学习hadoop中的艰难的一步,后面还需要学习更多的知识,不知道自己能不能坚持下去,不知道后面还会遇到多少困难,不过,我想,只要努力坚持下去,困难总是能够解决的。这次转载 2016-11-15 14:14:22 · 474 阅读 · 0 评论 -
Hadoop datanode添加与删除
出处:http://zzhblog.sinaapp.com/?p=82 一、 Hadoop节点热拔插在Hadoop集群中经常会进行增添节点操作,即实现节点的热拔插。在这些操作中不希望对集群进行重启。2.在集群中添加节点:a. 把新节点IP或者主机名字加入到主节点的slaves文件。 b. 登录到新节点,执行:1转载 2016-11-19 09:31:15 · 871 阅读 · 0 评论 -
Hadoop Hdfs常用命令
Hadoop Hdfs常用命令 概述 本文档介绍Hadoop hdfs系统的一些常用命令。 操作hdfs系统可以使用hadoop fs 也可以使用 hdfs dfs ,两者效果一样。(hadoop dfs命令已不再建议使用) 参考: http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html 常用命令一、原创 2016-11-19 09:38:58 · 54793 阅读 · 1 评论 -
Package 'openssh-server' has no installation candidate 问题解决
Package 'openssh-server' has no installation candidate (2015-02-26 12:32:24)转载▼E: Package 'openssh-server' has no installation candidateapt-get updateapt-get upgradeU转载 2016-11-15 18:15:27 · 15114 阅读 · 3 评论 -
java 操作 hdfs
package com.wisedu.hadoop.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.hdfs.DistributedFileSystem;import org.apache.hadoop.hdfs.protoco原创 2016-11-19 13:43:13 · 431 阅读 · 0 评论 -
kafka入门:简介、使用场景、设计原理、主要配置及集群搭建
转自:https://www.aboutyun.com//forum.php/?mod=viewthread&tid=9341&extra=page%3D1&page=1&问题导读:1.zookeeper在kafka的作用是什么?2.kafka中几乎不允许对消息进行“随机读写”的原因是什么?3.kafka集群consumer和producer状态信息...转载 2019-09-18 15:16:08 · 176 阅读 · 0 评论