Hadoop
文章平均质量分 78
罗鹏_1022
求知若渴,大智如愚
展开
-
数据的价值
怎么使数据产生价值,是现在各大公司或者整个大数据行业面临的主要问题。因为光讲一些很前言、很高端、很花哨的技术没有用,这些仅仅是对数据的加工,如果没有后续的价值产生,前面做的一切都是成本。所以,数据的根本问题在于产生价值。数据在哪些方面能产生价值呢?(举游戏开发公司来分析)1、决策支持:数据反映的是客观事实,这个很重要。管理层可以通过数据了解游戏市场中玩家的需求情况,决定做什么游戏,不做什么原创 2014-01-05 22:51:34 · 2764 阅读 · 0 评论 -
Hadoop集群问题汇总
原则①.不能随便使用hadoop namenode -format命令,该命令将格式化hdfs,所有数据都将失去。(该命令相当万能,就跟在windows下遇到问题就重装系统一样)②.1、NameNode、DataNode迁移问题问题A、Hadoop集群搭建好之后,默认路径采用的是/tmp,但该文件夹在Linux系统重启的时候会清空,所以需要转移到其他文件夹。问题B、Ha原创 2013-12-14 14:39:14 · 655 阅读 · 0 评论 -
HDFS概述
大数据处理——HDFS 一、HDFS是什么? HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是Hadoop主要应用的一个分布式文件系统。“主要”表示Hadoop还有其他分布式文件系统,“分布式文件系统”说明HDFS的核心是一个文件系统,认识并把握住核心才能很好的理解HDFS。 文件系统的目的是用来管原创 2013-12-14 13:59:47 · 818 阅读 · 0 评论 -
Common:序列化
序列化(Serializing)就是将int、long、array、object等我们能看懂的编程对象转化为机器能看懂的字节流的过程,相对应的就是反序列化(Deserializing)。当然,字节流可以用来保存到磁盘,也可以通过网络进行传输。Java虚拟机有自己的序列化机制,但序列化后保存了大量的附加信息,导致序列化结果膨胀。对于需要处理和保存大规模数据的Hadoop来说,这很明显是不能容原创 2015-10-06 16:02:11 · 580 阅读 · 0 评论 -
Common介绍
1、序列化序列化(Serializing)就是将int、long、array、object等我们能看懂的编程对象转化为机器能看懂的字节流的过程,相对应的就是反序列化(Deserializing)。当然,字节流可以用来保存到磁盘,也可以通过网络进行传输。Java虚拟机有自己的序列化机制,但序列化后保存了大量的附加信息,导致序列化结果膨胀。对于需要保存和处理大规模数据的Hadoop来说,这很明原创 2013-12-14 19:34:24 · 2354 阅读 · 0 评论 -
Common:压缩
计算机存储的数据都存在一定的冗余,同时数据之间,尤其是相邻数据间存在着相关性,所以可以通过一些有别于原始编码的特殊编码来保存数据,使数据占用的存储空间减小,这个过程就是压缩,相对应的就是解压缩。压缩广泛应用于海量数据处理中,对数据文件进行压缩,可以有效减少存储文件所需的空间,并加快数据在网络上的传输效率。在Hadoop中,压缩应用于文件存储、Map阶段到Reduce阶段的数据交换等情景,其主要考虑原创 2015-10-10 10:39:35 · 445 阅读 · 0 评论 -
Hadoop远程过程调用
远程过程调用(Remote Procedure Call, RPC)由1984年引入分布式计算领域,是解决分布式系统访问透明性的解决方案。远程过程调用让用户可以像调用本地方法一样调用另外一个应用程序提供的服务,而不必设计和开发相关的信息发送、处理和接收等具体代码,提高了程序的互操作性。Hadoop IPC(Inter-Process Communication,进程间通信)属于RPC的一种比较简单原创 2015-10-13 11:30:17 · 733 阅读 · 0 评论 -
HBase系统架构
总体架构:Client:Client使用HBase RPC机制与HMaster、HRegionServer进行通信。与HMaster通信进行管理类操作,与HRegionServer通信进行数据读写类操作Zookeeper:Zookeeper Quorum(仲裁),存储-ROOT-表地址、HMaster地址HRegionServer把自己注册到Zookeepe原创 2015-11-23 15:21:28 · 565 阅读 · 0 评论