hadoop
文章平均质量分 74
doers123
精益创业者,连续创业者,创业行动派
展开
-
Hadoop Yarn 框架原理及运作机制
1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。转载 2015-09-07 10:21:23 · 550 阅读 · 0 评论 -
Hadoop大数据学习线路图-单篇
入门知识对于我们新手入门学习hadoop的朋友来说,首先了解一下云计算和云计算技术是有必要的。下面先是介绍云计算和云计算技术的:云计算,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往转载 2016-02-04 18:37:00 · 618 阅读 · 0 评论 -
Hadoop学习路线图(推荐博客为主)
按照这个路线图来学习即可。 1、M. Tim Jones的三篇文章: 用Hadoop进行分布式数据处理第1部分(入门):http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/index.html 用Hadoop进行分布式数据处理第2部分(进阶):http://www.ibm.com/developerworks/c转载 2016-02-04 17:56:23 · 580 阅读 · 0 评论 -
hadoop、hbase、hive、zookeeper版本对应关系
原文: http://www.aboutyun.com/blog-61-62.htmlhadoop、hbase、hive、zookeeper版本对应关系续hadoop与HBase版本对应关系:Hbase Hadoop 0.92.0 1.0.00.92.1 1.0.00.92.2 1.0.30.94.0 1.0.20.94.1 1.转载 2016-02-19 17:50:49 · 1084 阅读 · 0 评论 -
kafka入门:简介、使用场景、设计原理、主要配置及集群搭建
问题导读:1.zookeeper在kafka的作用是什么?2.kafka中几乎不允许对消息进行“随机读写”的原因是什么?3.kafka集群consumer和producer状态信息是如何保存的?4.partitions设计的目的的根本原因是什么? 一、入门 1、简介 Kafka is a distributed,partitioned转载 2016-03-07 10:50:27 · 638 阅读 · 0 评论 -
流式大数据处理的三种框架:Storm,Spark和Samza
摘要:许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对Storm、Spark和Samza等三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同.许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称转载 2016-03-07 15:31:47 · 547 阅读 · 0 评论 -
Apache Storm 命令行操作
Apache Storm 命令行操作原创 2016-03-07 16:35:37 · 652 阅读 · 0 评论 -
apache kafka源码分析-Producer分析
原文地址:http://www.aboutyun.com/thread-9938-1-1.html问题导读1.Kafka提供了Producer类作为java producer的api,此类有几种发送方式?2.总结调用producer.send方法包含哪些流程?3.Producer难以理解的在什么地方?producer的发送方式剖析Kafka提供了Producer类作为jav转载 2016-03-08 15:12:19 · 662 阅读 · 0 评论 -
zookeeper单点与集群安装
ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行,不过它的长处在转载 2016-02-23 15:30:03 · 689 阅读 · 0 评论 -
hadoop Shell命令详解
调用文件系统(FS)Shell命令应使用bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI路径详解点击这里。1、cat说明:将路径指定文件的内容输出到stdout。用法:hadoop fs -cat URI [URI …]范例:hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:p转载 2016-03-08 18:03:47 · 680 阅读 · 0 评论 -
在win8下安装centos7报错解决
装完CentOS后,重新开机启动后显示: Initial setup of CentOS Linux 7 (core) 1) [x] Creat user 2) [!] License information (no user will be created) (license not accepted) Please make your choice from above [‘q原创 2016-02-24 23:50:01 · 983 阅读 · 0 评论 -
centos 关机和重启命令详解
如果你很急着关机或者重启话,那么关机就是init 0,重启就是init 6或者rebootLinux中常用的关机和重新启动命令有shutdown、halt、reboot以及init,它们都可以达到关机和重新启动的目的,但是每个命令的内部工作过程是不同的,下面将逐一进行介绍。1. shutdownshutdown命令用于安全关闭Linux系统。有些用户会使用直接断掉电源的方式来关闭L转载 2016-02-24 23:57:21 · 2882 阅读 · 0 评论 -
hadoop学习路径(知乎)
推荐一些Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。转载 2016-02-04 18:32:13 · 1953 阅读 · 0 评论 -
Hadoop2.0的HA介绍
前一篇文章介绍了Hadoop2.0(hadoop2.0架构,具体版本是hadoop2.2.0)的安装和最基本的配置(见 http://www.linuxidc.com/Linux/2014-05/101173.htm ),并没有配置HA(High Avalability,高可用性),接下来的文章中会介绍hadoop2.0HA的配置。在介绍hadoop2.0的HA配置之前,本文先介绍hadoo转载 2016-02-14 16:20:33 · 515 阅读 · 0 评论 -
hadoop、hbase、hive、zookeeper版本对应关系
最新版本:hadoop、hbase、hive、zookeeper版本对应关系续hadoop与HBase版本对应关系:Hbase Hadoop 0.92.0 1.0.00.92.1 1.0.00.92.2 1.0.30.94.0 1.0.20.94.1 1.0.30.94.2 1.0.30.94.3 1.0.40.9原创 2015-09-18 19:42:26 · 1621 阅读 · 0 评论 -
使用IKAnalyzer分词计算文章关键字
使用IKAnalyzer分词计算文章关键字并分享几个分词词典转载 2015-10-10 16:03:07 · 1730 阅读 · 0 评论 -
VirtualBox中安装CentOS使得在ssh和外网都能正常链接
VirtualBox中安装CentOS使得在ssh和外网都能正常链接转载 2015-09-22 16:45:06 · 1343 阅读 · 0 评论 -
centos7.0体验与之前版本的不同
centos7.0体验与之前版本的不同转载 2015-09-22 17:00:57 · 449 阅读 · 0 评论 -
VirtualBox中开启Linux的SSH(CentOS)
VirtualBox中开启Linux的SSH(CentOS)转载 2015-09-22 18:58:24 · 1499 阅读 · 0 评论 -
VirtualBox虚拟机网络设置(四种方式)
VirtualBox虚拟机网络设置(四种方式)转载 2015-09-24 09:24:41 · 422 阅读 · 0 评论 -
Hadoop学习笔记系列开篇
Hadoop学习笔记系列开篇原创 2015-11-24 17:50:50 · 425 阅读 · 0 评论 -
Zookeeper 学习笔记之配置启动
Zookeeper 的安装非常简单,下面将从单机模式和集群模式 单机模式配置: Zookeeper 的启动脚本在 bin 目录下,Linux 下的启动脚本是 zkServer.sh在你执行启动脚本之前,还有几个基本的配置项需要配置一下,Zookeeper 的配置文件在 conf 目录下,这个目录下有 zoo_sample.cfg 和 log4j.properties,你需要做的就转载 2016-02-13 16:25:35 · 403 阅读 · 0 评论 -
storm的基础介绍_数据分析_大数据
一、简要介绍 对于大数据的处理,在离线方面,Hadoop很完美地解决了,对于实时数据的处理则无能为力。 Storm是一个开源的分布式实时计算系统,可以简单、可靠地处理大量的数据流。 Storm有很多使用场景,如实时分析、在线机器学习、持续计算、分布式RPC、ETL等。 Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而转载 2016-02-13 17:51:53 · 970 阅读 · 0 评论 -
流式大数据处理的三种框架:Storm,Spark和Samza
摘要:许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对Storm、Spark和Samza等三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称转载 2016-02-13 17:53:23 · 740 阅读 · 0 评论 -
《Storm入门》中文版
《Storm入门》中文版本文翻译自《Getting Started With Storm》译者:吴京润 编辑:郭蕾 方腾飞本书的译文仅限于学习和研究之用,没有原作者和译者的授权不能用于商业用途。译者序Storm入门终于翻译完了。首先感谢并发编程网同意本人在网站上首发本书译文,同时还要感谢并发编程网的各位大牛们的耐心帮助。这是本人翻译的第一本书,其中必有各种不足请诸位读原创 2016-02-13 18:06:46 · 529 阅读 · 0 评论 -
Hadoop家族学习路线图(干货系列)
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风起云转载 2016-02-05 10:56:45 · 1208 阅读 · 0 评论 -
centos 7管理命令整合经典
-----------------------------------------------工作常用命令 begin----------------------------------------查看所有网卡IP地址——ip addr启动防火墙——systemctl start firewalld.service停止防火墙——systemctl stop firewa原创 2016-02-29 09:47:58 · 1832 阅读 · 0 评论