沉潜飞动

人非生而知之者,孰能无惑?惑而不从师,其为惑也,终不解矣。

storm笔记:Trident状态

Trident中有对状态数据进行读取和写入操作的一流抽象工具。状态既可以保存在拓扑内部,比如保存在内容中并由HDFS存储,也可以通过外部存储(比如Memcached或Cassandra)存储在数据库中。而对于Trident的API而言,这两种机制没有任何区别。Trident以容错的方式管理状态,以...

2017-06-09 22:58:47

阅读数:2074

评论数:0

storm笔记:Trident应用

Trident是基于Storm的实时计算模型的高级抽象。它可以实现高吞吐(每秒数百万条消息)的有状态流处理和低延迟分布式查询。如果以前使用过高级批处理工具(比如Pig或Cascading),则对Trident的概念会非常熟悉,比如连接、聚合、分组、功能处理和过滤等。除此之外,Trident还增加了...

2017-04-01 14:35:02

阅读数:2185

评论数:0

YARN 架构

YARN的基本思想是将资源管理和作业调度/监控的功能分为独立的守护进程。这样就出现了一个全局的 ResourceManager(RM) 和每个应用程序的 ApplicationMaster(AM)。应用程序可以是一个job作业或者一组job作业的有向无环图(DAG)。ResourceManager...

2017-07-11 09:23:45

阅读数:863

评论数:0

使用 QJM 实现 HDFS 的 HA

hadoop官方提供了两种HDFS的HA配置方案,两种方案殊途同归,但是需要的钱、精力和技术不同。如果对HDFS架构熟悉的话,就应该知道,NameNode通过FsImage和EditLog两个文件管理DataNode的数据,Secondary NameNode会定期合并EditLog,以减少Nam...

2017-07-10 11:12:12

阅读数:552

评论数:0

HDFS 架构

Hadoop文件存储的基础是HDFS(Hadoop Distributed File System),HDFS的实现依赖于NameNode和DataNode,DataNode用来存储具体数据,NameNode用来管理多个DataNode中分别存储的是什么。理解起来也不难,因为HDFS是分布式的文件...

2017-07-05 17:05:11

阅读数:1039

评论数:0

Zookeeper客户端错误:Packet len* is out of range!

这是一个生产环境使用zookeeper异常的情况,错误是java.io.IOException: Packet len8854970 is out of range!。

2017-03-01 11:36:04

阅读数:3524

评论数:0

hadoop集群部署(yarn)

伴随着各大互联网公司开源自己的大数据框架,大数据处理领域的框架已经比较完善。到现在所谓大数据的框架已经用过habase(后来换成了elasticsearch)、zookeeper、kafka、storm,根据项目计划,接下来还要使用spark。虽然在众多框架中仅仅几个,但是也是已经涉及多个方面:数...

2016-03-31 17:51:20

阅读数:2119

评论数:0

Storm 简介

场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜...

2015-09-17 13:38:27

阅读数:889

评论数:0

ZooKeeper介绍及典型使用场景

1 概述   ZooKeeper(动物园管理员),顾名思义,是用来管理Hadoop(大象)、Hive(蜜蜂)、Pig(小猪)的管理员,同时Apache HBase、Apache Solr、LinkedIn Sensei等众多项目中都采用了ZooKeeper。   ZooKeeper曾是Hado...

2015-01-15 20:40:31

阅读数:13716

评论数:12

ZooKeeper安装部署

1 概述   ZooKeeper(动物园管理员),顾名思义,是用来管理Hadoop(大象)、Hive(蜜蜂)、Pig(小猪)的管理员,同时Apache HBase、Apache Solr、LinkedIn Sensei等众多项目中都采用了ZooKeeper。   ZooKeeper是Hadoo...

2014-10-21 13:14:41

阅读数:4509

评论数:1

DataNode连接错误Retrying connect to server

在Hadoop分布式模式部署完成后,通过start-dfs.sh启动NameNode、DataNode、SecondaryNameNode,在master节点通过jps命令查看,看到NameNode、SecondaryNameNode已启动,在slave节点通过jps命令查看,DataNode也已...

2014-10-15 22:33:39

阅读数:15010

评论数:0

hadoop2.x.x格式化遇到的问题

1 概述   解决hadoop启动hdfs时,datanode无法启动的问题。错误为: java.io.IOException: Incompatible clusterIDs in /home/lxh/hadoop/hdfs/data: namenode clusterID = CID-a3...

2014-10-15 22:31:27

阅读数:7882

评论数:0

Hbase伪分布式模式部署

HBase是一个分布式、面向列的开源数据库,是Apache Hadoop项目的子项目,适用于非结构化数据存储的数据库。在Hadoop家族中,很多产品为HBase提供服务: Hadoop HDFS为HBase提供了高可靠性的底层存储支持;Hadoop MapReduce为HBase提供了高性能...

2014-10-15 22:23:27

阅读数:5685

评论数:0

Hbase单机模式部署

HBase是一个分布式、面向列的开源数据库,是Apache Hadoop项目的子项目,适用于非结构化数据存储的数据库。在Hadoop家族中,很多产品为HBase提供服务: Hadoop HDFS为HBase提供了高可靠性的底层存储支持;Hadoop MapReduce为HBase提供了高性能...

2014-10-15 16:00:52

阅读数:6238

评论数:2

Hadoop伪分布式模式部署

Hadoop的安装有三种运行模式: 单机模式(Local (Standalone) Mode):Hadoop的默认模式,0配置。Hadoop运行在一个Java进程中,使用本地文件系统,不使用HDFS,一般用于开发调试MapReduce程序的应用逻辑。伪分布式模式(Pseudo-Distrib...

2014-10-15 14:39:17

阅读数:5070

评论数:0

Hadoop单机模式部署

Hadoop的安装有三种运行模式: 单机模式(Local (Standalone) Mode):Hadoop的默认模式,0配置。Hadoop运行在一个Java进程中,使用本地文件系统,不使用HDFS,一般用于开发调试MapReduce程序的应用逻辑。伪分布式模式(Pseudo-Distrib...

2014-10-15 14:35:23

阅读数:5884

评论数:0

MapReduce实现矩阵乘法

在海量数据中淘金,已是各大互联网公司的既定目标,亚马逊是数据化运营的成功典范,Google、百度投巨资用于对海量数据进行深度学习研究,阿里把数据与平台、金融并列成为未来三大战略。想在海量数据中淘到金子,强大的挖掘工具是必不可少的,而诸如回归、聚类、主成分分析、决策树等数据挖掘算法常常涉及大规模矩阵...

2014-10-10 11:05:22

阅读数:8767

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭