大数据存储与分析
文章平均质量分 82
随着互联网快速发展,数据量增长快,达到TB、PB。数据量如此大,如何满足后期分析,传统面向OLTP型数据库(ORACLE、MYSQL等)无法满足需求要求。
Druid为此而生.........
铁猴
热爱Java,热爱大数据,热爱技术!
展开
-
Hadoop 变更磁盘的方法总结
背景说明HDFS文件系统使用一段时间后,可能会出现磁盘空间不足或是磁盘损坏的现象,此时需要对DataNode节点的磁盘进行扩充或是更换,本文对操作流程做一个简单的总结操作步骤挂载硬盘添加硬盘的操作网上有很多教程,可以参考:http://zwkufo.blog.163.com/blog/static/258825120141283942244/操作HDFS修改hdfs-size.xml配置文件只需要原创 2017-02-10 17:12:26 · 5837 阅读 · 3 评论 -
Hadoop 2.2.0 常见问题之:Ubuntu 64环境下“Unable to load native-hadoop library for your platform”问题”
问题最近在学习Hadoop(2.2.0),打算写一个MapReduce的小程序在Ubuntu 64位的环境下测试一把,一切环境配置完毕后,执行的过程中,控制台输出下面的内容:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java clas原创 2014-07-04 00:04:19 · 1997 阅读 · 0 评论 -
Pydoop在AWS的Ubuntu上Segmentation fault 错误处理
问题描述平台用Python开发,使用pydoop对HDFS文件进行操作,当迁移到AWS时,出现Segmentation Fault, 通过排查,确定问题是因为调用了Pydoop对hdfs的初始化过程中出现的问题。 相关代码如下:from pydoop.hdfs import fs;print fs.hdfs()通过gdb调试,错误信息如下: 问题原因通过查阅资料,初步判断是由于堆栈溢出导致的原创 2017-07-14 09:50:15 · 1881 阅读 · 0 评论 -
Zookeeper 在Hadoop中的应用
Zookeeper 简介Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。Hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节原创 2015-06-23 21:06:25 · 4965 阅读 · 0 评论 -
Centos 6.5 下Cloudera Manager5.3.2的安装
宿主机硬件配置运行环境软硬件环境l 主机操作系统:Windows 64 bit,双核4线程,主频2.2G,8G内存l 虚拟软件:VMware®Workstation 9.0.0 build-812388l 虚拟机操作系统:CentOs 64bit,单核,2G内存虚拟机软硬件配置集群网络环境集群包含三个节点:节点之间局域网连接,可以相互ping通。节点IP地址和主机名分原创 2015-03-30 22:08:03 · 1472 阅读 · 0 评论 -
Centos 6.5 下hadoop2.5.2的HA集群原理讲解以及详细配置(自动切换)
简介在Centos 6.5 下hadoop2.5.2的HA集群原理讲解以及详细配置(手动切换) 一文中讲述了如何搭建一个通过手工方式实现namenode HA机制,本文描述如同通过Zookeeper来实现自动的HA.基本原理以及部分参数的讲解可参考手动切换的章节硬件环境HOSTNAMEIPHadoop原创 2015-03-25 13:13:52 · 2595 阅读 · 4 评论 -
在CentOS上安装ZooKeeper集群
创建用户一般我倾向于把需要启动daemon进程,对外提供服务的程序,即服务器类的程序,安装在单独的用户下面。这样可以做到隔离,运维方面,安全性也提高了。创建一个新的group,$ sudo groupadd zookeeper创建一个新的用户,并加入group,$ sudo useradd -g zookeeper zookeeper给新用户设置密码,$ sudo原创 2015-02-27 16:54:01 · 3908 阅读 · 0 评论 -
Centos 6.5 下hadoop2.5.2的HA集群原理讲解以及详细配置(手动切换)
简介hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是hadoop1不可靠的表现,如图1所示。hadoop2就解决了这个问题。图1hadoop-2.5.2中HDFS的高可靠指的是可以同时启动2个Na原创 2015-02-27 13:20:36 · 2918 阅读 · 0 评论 -
Hadoop 中SequenceFile的简介
概念SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件,它可以在map/reduce过程中的input/output 的format时被使用。在map/reduce过程中,map处理文件的临时输出就是使用SequenceFile处理过的。 所以一般的SequenceFile均是在FileSystem中生成,供map调用的原始文件。原创 2014-12-10 22:33:09 · 11036 阅读 · 0 评论 -
几种序列化之间的比较Thrift&protocolbuffer&avro
thrift和avro都提供rpc服务和序列化,而protocolbuffer只是提供序列化功能Avro是强调一种高效的序列化,标准性的云计算的数据交换和存储的ProtocolAvro的创新之处在于融合了显式,declarative的Schema和高效二进制的数据表达,强调数据的自我描述,克服了以往单纯XML或二进制系统的缺陷。Avro对Schema动态加载功能,是Thrift编程接口所不转载 2014-12-05 15:37:07 · 1421 阅读 · 0 评论 -
通过漫画轻松掌握HDFS工作原理
转载 2014-11-27 15:34:13 · 3826 阅读 · 0 评论 -
Hadoop 中MapReduce的数据流
Hadoop的核心组件在一起工作时如下图所示:图4.4高层MapReduce工作流水线 MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务都是平等的:mappers没有特定“标识物”与其关联。因此,任意的mapper都可以处理任意转载 2014-11-27 14:51:18 · 2222 阅读 · 0 评论 -
在CentOS 运行你的第一个MapReduce程序
在进行本文的操作之前要先搭建一个Hadoop的环境,为了便于实验,可采用单节点部署的方式,具体方法可参见:Centos 6.5 下Hadoop 1.2.1单节点环境的创建编写源码主要为创建一个解析气象数据的程序,可以从数据文件中选择气温最高的一年,采用Maven进行编译。下面只包含Maper,Reduce,以及Main函数的代码。完整项目代码请参见https://g原创 2014-11-26 14:14:20 · 2575 阅读 · 0 评论 -
Centos 6.5 下Hadoop 1.2.1单节点环境的创建
安装以及配置JavaJDK安装#chmod 777 jre-6u31-linux-x64-rpm.bin#./jre-6u31-linux-x64-rpm.bin添加java环境变量#vim /etc/profile#最后添加# set java environmentexport JA原创 2014-11-25 16:36:29 · 1659 阅读 · 0 评论 -
ELK实践系列-系统日志监控
背景公司有一套大数据的处理平台,涉及到Hadoop,Spark,Hive,Presto等框架,当数据出现异常时,往往要通过多个环节的排查才能定位到问题,大致排成流程如下 插件日志-->采集日志-->Spark日志-->Hive日志--->Hadoop日志。。。。。。,只看这个流程已经醉了,为了便于问题的准确定位,计划采用ELK的方案对日志进行采集,存储以及查询。处于技术原型阶段,采用最简单原创 2016-07-15 17:44:47 · 15580 阅读 · 0 评论 -
ELK实践系列-测试环境环境搭建
ELK是三个开源工具ElasticSearch,Logstash,Kibana组合而成的软件栈,其中的核心是开源的分布式搜索引擎Elasticsearch,辅以Logstash灵活多样的日志收集,过滤,传送功能以及Kibana炫酷的前端展示面板,组合成一套可以媲美商业应用的解决方案。下面是个典型的ELK架构方案;看起来很简单,logstash像一把瑞士军刀,可以通过plug原创 2016-07-15 17:41:46 · 10864 阅读 · 0 评论 -
Storm入门与实践(4)Storm的容错机制
转载自:并发编程网 – ifeve.comStorm 能够保证每一个由 Spout 发送的消息都能够得到完整地处理。本文详细解释了 Storm 如何实现这种保障机制,以及作为用户如何使用好 Storm 的可靠性机制。消息的“完整性处理”是什么意思一个从 spout 中发送出的 tuple 会产生上千个基于它创建的 tuples。例如,有这样一个 word-count 拓扑:TopologyBuil转载 2017-08-24 11:17:37 · 2211 阅读 · 0 评论 -
Storm入门与实践(3)通过WordCount展开Storm的编程之旅
介绍貌似WordCount已经成了大数据,分布式计算的入门标配程序,其实仔细想一下WordCount的例子,它还有很用应用的场景,例如统计过去一段时间网站中各个商品的浏览量,最近一段时间相同查询的数量等.本文主要讨论下Storm如何实现WordCountTopology结构WordCount的Topology比较简单,流程如下 主要代码Storm版本Storm:apache-storm-1.1.1原创 2017-08-15 13:42:09 · 1933 阅读 · 0 评论 -
Storm入门与实践(2)构建Storm的开发环境与集群
1. Storm 技术栈Storm 运行在JVM之上,大部分功能都是通过Java与Clojure进行开发。 Storm的主要接口都是通过Java进行开发,但绝大多数的逻辑都是由Clojure进行实。 Python主要用来实现Storm的后台程序以及管理命令程序。2. Storm环境搭建在搭建Storm环境之前,需要对Java以及Zookeeper的环境进行配置2.1 安装基础依赖2.1.1 安装原创 2017-08-14 17:10:09 · 1689 阅读 · 0 评论 -
Storm入门与实践(1)入门介绍
Storm 简介Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单,而且,在同类的流式计算工具,Storm的性能也是非常出众的。Storm 核心概念Storm主要分为两种组件Nimbus和Superv原创 2017-08-10 18:24:21 · 1690 阅读 · 0 评论 -
Centos 下Hbase0.98.10-hadoop2 单机模式的安装
下载,解压缩包http://www.apache.org/dyn/closer.cgi/hbase/修改HBase配置文件1、 hbase-env.sh取消配置JDK的注释并做并如下修改(我的JDK安装路径):export JAVA_HOME=/usr/java/jdk1.6.0_27/2、 hbase-site.xml因为是单机启动,所以只设定了HBase写入的本原创 2015-04-16 19:47:55 · 1159 阅读 · 0 评论 -
通过 JMX 获取Hadoop/HBase监控数据
概述说到对Hadoop和 HBase的集群监控,大家知道的和用的最多的可能还是第三方的监控工具,cacti,ganglia,zabbix之类的。玩的深一些的,会用 zenoss之类的。这些工具确实不错,也能发挥很大的作用,但时间长了总感觉监控粒度还是比较粗,不够详细。毕竟是第三方的监控,即便Hadoop自带 了ganglia的接口,也还是觉得不够。其实Hadoop本身是带有监控接口的,原创 2015-04-09 22:05:52 · 12522 阅读 · 1 评论 -
Apache Phoenix JDBC 驱动和Spring JDBCTemplate的集成
介绍:Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。更多参考官网:http://phoenix.apache.org/Phoenix实现了JDBC的驱动,使用Phoenix JDBC和普通的数据库原创 2015-03-20 16:54:12 · 13629 阅读 · 0 评论 -
Phoenix 4.3.0 与 Hbase0.98.10-hadoop2的整合
介绍:Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。更多参考官网:http://phoenix.apache.org/本文主要详细介绍Phoenix 4.3.0 与 Hbase0.98.10-ha原创 2015-03-10 12:57:33 · 4520 阅读 · 0 评论 -
opentsdb-2.0.1 RPM包的安装以及测试
介绍开源监控系统OpenTSDB,用hbase存储所有的时序(无须 采样)来构建一个分布式、可伸缩的时间序列数据库。它支持秒级数据采集所有metrics,支持永久存储,可以做容量规划,并很容易的接入到现有的报警系统里。OpenTSDB可以从大规模的集群(包括集群中的网络设备、操作系统、应用程序)中获取相应的metrics并进行存储、索引以及服务,从而使得这些数据更容易让人理解,如web原创 2015-03-03 17:37:27 · 3698 阅读 · 1 评论 -
Windows7+Eclipse环境下Hbase Java客户端的开发
本文展示如何在Windows的环境下通过Eclipse构建Hbase的客户端开发构建Hbase集群,请参考:Centos 下Hbase0.98.10-hadoop2 集群的配置在Eclipse中创建Maven的工程将集群的hbase-site.xml文件放到工程的classes目录下配置操作系统的C:\windows\system32\drivers\etc文件,将Hbas原创 2015-03-02 09:30:40 · 2356 阅读 · 2 评论 -
Centos 下Hbase0.98.10-hadoop2 集群的配置
环境操作系统 Centos 6.5 64-bitHadoop:hadoop-2.5.2HBase:hbase-0.98.10-hadoop2Zookeeper:zookeeper-3.4.6物理机器 ip 主机名 192.168.40.107 hadoop107192.168.40.108 hadoop108原创 2015-02-27 23:16:21 · 2417 阅读 · 0 评论 -
Hbase入门之:原理、基本概念与架构
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来转载 2015-02-13 11:13:35 · 1228 阅读 · 0 评论 -
Openstack存储总结之:使用Ceph集群作为后端统一存储
前提条件一个可以正常运行的Ceph集群,该集群采用ceph-deploy创建,dataprovider为管理节点,包括三个MON,四个MON以及Openstack集群,其中Openstack集群假设Cinder,Glance都是安装在叫做controllernode的节点上,computernode,networknode分别为计算以及网络节点创建Pool在原创 2014-12-01 16:44:46 · 3607 阅读 · 0 评论 -
Ceph实践总结之:CephFS客户端的配置
由于CephFS目前不算很稳定,可能更多的还是用在实验中。在进行本章的操作之前,要先完成基本集群的搭建,请参考http://blog.csdn.net/eric_sunah/article/details/40862215文件系统挂载的操作可以再虚拟机上进行,也可以在独立的物理机上执行,请不要在ceph集群中的机器上进行下面的操作前期准备¶通过 OS Recomme原创 2014-11-20 15:59:50 · 5027 阅读 · 0 评论 -
Ceph实践总结之:Centos 下RBD块设备客户端的配置
在进行本章的操作之前,要先完成基本集群的搭建,请参考http://blog.csdn.net/eric_sunah/article/details/40862215Ceph的块设备又称为 RBD 或是RADOS. 块设备实验的过程中,可以用虚拟机来作为ceph-client的节点,但是为了保证集群的稳定,不要在集群的节点上做下面的操作安装Ceph原创 2014-11-20 15:08:54 · 9902 阅读 · 0 评论 -
Ceph 集群的扩展
前文讲述了如何创建一个集群,结构如下,本文讲述如何对该集群进行扩展IPhostname描述192.168.40.106dataprovider部署管理节点192.168.40.107mdsnodeMON节点192.168.40.108osdnode1OSD原创 2014-11-18 16:39:40 · 3645 阅读 · 1 评论 -
Ceph中Paxos 算法的由来
Paxos 是分布式计算里非常重要的一个算法,最初由 Leslie Lamport 在1990年发表,题为:The Part-time Parliament,这是一篇很有趣的论文,Lamport 在这篇论文里面把人物(分布式计算领域内的重要科学家)的英文名字用希腊文代替,并且整篇论文站在人类学家的立场、古文明、议会的角度来写导致人们很难理解这是一篇计算机学术论文,所以论文一直没能被发表,更糟的是,转载 2014-11-11 14:38:28 · 3210 阅读 · 0 评论 -
Centos6.5下Ceph存储集群的搭建
简单介绍Ceph的部署模式下主要包含以下几个类型的节点• Ceph OSDs: A Ceph OSD 进程主要用来存储数据,处理数据的replication,恢复,填充,调整资源组合以及通过检查其他OSD进程的心跳信息提供一些监控信息给Ceph Monitors . 当Ceph Storage Cluster 要准备2份数据备份时,要求至少有2个Ceph OSD进程原创 2014-11-06 16:08:54 · 6294 阅读 · 1 评论 -
“Ceph浅析”系列之(六)——关于Ceph的若干想法
转载自:http://yizhaolingyan.net/?p=11转载 2014-08-05 16:40:49 · 1192 阅读 · 0 评论 -
“Ceph浅析”系列之(五)——Ceph与OpenStack
转载自:http://yizhaolingyan.net/?p=11转载 2014-08-05 16:39:38 · 1160 阅读 · 0 评论 -
“Ceph浅析”系列之(四)——Ceph的工作原理及流程
转载自:http://yizhaolingyan.net/?p=11转载 2014-08-05 16:36:00 · 1435 阅读 · 0 评论 -
“Ceph浅析”系列之(三)—Ceph的结构
转载自:http://yizhaolingyan.net/?p=11 本文将从逻辑结构的角度对Ceph进行分析。4.1 Ceph系统的层次结构 Ceph存储系统的逻辑层次结构如下图所示[1]。 自下向上,可以将Ceph系统分为四个层次: (1)基础存储系统RADOS(Reliable, Autonomic, Distr转载 2014-08-05 16:33:46 · 1533 阅读 · 0 评论 -
“Ceph浅析”系列之(二)—Ceph的设计思想
转载自:http://yizhaolingyan.net/?p=11转载 2014-08-05 16:29:47 · 1291 阅读 · 0 评论 -
“Ceph浅析”系列之(—)—Ceph概况
本文将对Ceph的基本情况进行概要介绍,以期读者能够在不涉及技术细节的情况下对Ceph建立一个初步印象。 2.1 什么是Ceph? Ceph的官方网站Ceph.com上用如下这句话简明扼要地定义了Ceph: “Ceph is a unified, distributed storage systemdesigned for excell转载 2014-08-05 16:29:01 · 1646 阅读 · 0 评论