自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Spark初识(学习总结一)

一、什么是spark官网在此Apache Spark™是用于大规模数据处理的统一分析引擎。美国加州大学伯克利分校AMP实验室开发的大数据处理框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目。Spark可以用R语言、Java、Scala和python进行编写。使用R语言编写占到极少数,python编写spark效率不及Java和Scala,Ja...

2019-03-20 21:13:49 949

原创 Flume Agent 内部原理

SourceSource是Flume的数据来源,来源的类型多样化,可以是监听一个文件的变化、一个文件夹的变化,可以是接收JMS消息,或者是监听一个网络端口等。Source至少要连接一个Channel,但是Event写入Channel不是由Source来完成的,每个Source都有自己的Channel处理器,Source每次写Event到Channel时,都由Channel处理器来完成。1、S...

2019-03-14 19:46:58 778

原创 Flume简介

1、什么是flumeflume 是由 cloudera 软件公司产出的可分布式日志收集系统,后与 2009 年被捐赠了 apache 软件基金会, 为hadoop 相关组件之一。Flume 是一种分布式 , 可靠且可用的服务 , 用于高效地收集 , 汇总和移动大量日志数据 。 它具有基于流式数据流的简单而灵活的架构 。 它具有可靠的可靠性机制以及许多故障转移和恢复机制 , 具有强大...

2019-03-14 11:01:13 5536

原创 HBase查询机制--Region定位

旧版本:region是HBase架构的关键,大部分的工作都围绕着region展开。在0.96.0版本之前,region的查询通过三层架构来定位:Region:就是所需要查询的数据具体所在的Region.META. :元数据表,存储了所有region的简要信息。.META.表中的一行记录就是一个Region,该行记录了该Region的起始行,结束行,和该Region的连接信息,这样客户端就可以...

2019-03-12 19:44:59 3562

原创 Nginx安装部署

上一章简单介绍了Nginx基本概念,和正反向代理模式的特点。现在我们在Linux上安装部署Nginx前提条件:安装好jdk、tomcat正式安装1.下载wget工具[root@hadoop ~]# yum install wget -y2、下载nginx安装包[root@hadoop ~]# wget http://nginx.org/download/nginx-1.6.2.ta...

2019-03-11 21:05:11 341

原创 Nginx简介

什么是Nginx?Nginx是一款自由的、开源的、高性能的HTTP服务器和反向代理服务器;同时也是一个IMAP、POP3、SMTP代理服务器;Nginx可以作为一个HTTP服务器进行网站的发布处理,另外Nginx可以作为反向代理进行负载均衡的实现。Nginx同Apache一样都是一种WEB服务器。基于REST架构风格,以统一资源描述符(Uniform Resources Identifier)...

2019-03-11 20:55:57 278

原创 HBase中设计MemStore的原因

MemStore数据被写入WAL之后就会被加载到MemStore中去。MemStore的大小增加到超过一定阀值的时候就会被刷写到HDFS上,以HFile的形式被持久化起来设计MemStore的原因:1.由于HDFS上的文件不可修改,为了让数据顺序存储从而提高读取效率,HBase使用了LSM树结构来存储数据。数据会先在Memstore中整理成LSM树,最后再刷写到HFile上。2.优化数据...

2019-03-10 20:01:54 491

转载 LSM树设计原理详解

代表数据库:nessDB、leveldb、hbase等核心思想的核心就是放弃部分读能力,换取写入的最大化能力。LSM Tree ,这个概念就是结构化合并树的意思,它的核心思路其实非常简单,就是假定内存足够大,因此不需要每次有数据更新就必须将数据写入到磁盘中,而可以先将最新的数据驻留在内存中,等到积累到最后多之后,再使用归并排序的方式将内存内的数据合并追加到磁盘队尾(因为所有待排序的树都是有序的,...

2019-03-10 19:50:57 4389

原创 HBase预写日志WAL机制

预写日志(Write-ahead log,WAL)最重要的作用是灾难恢复,一旦服务器崩溃,通过重放log,我们可以恢复崩溃之前的数据。如果写入WAL失败,整个操作也将认为失败。从上图看:1 客户端对数据执行一个修改操作,如put(),delete(),incr()等。2 每一个修改被封装到一个KeyValue对象实例,并通过RPC调用发送出来。3 上述调用成批地发送给含有匹配regio...

2019-03-10 17:28:17 5061

原创 深入理解HBase存储结构

HBASE是一个高可靠性、高性能、面向列、可伸缩、实时读取的分布式存储系统数据库,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase介于nosql(非关系型数据库)和RDBMS(关系型数据库管理系统)之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的...

2019-03-10 17:11:27 13948

原创 HBase初识(简介)

1.什么是HBase2.HBase产生背景3.HBase和传统数据库的对比4.HBase优缺点5.HBase适用场景6.HBase的优势

2019-03-10 16:26:52 264

原创 HBase系统架构(部署架构)

简单了解了HBase的基本概念之后,在接下来的安装部署HBase之前,首先要对HBase的体系结构进行了解。ClientHBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信对于管理类操作,Client与HMaster进行RPC;对于数据读写类操作,Client与HRegionServer进行RPCZookeeperHBase整体十分依...

2019-03-10 16:07:13 960

翻译 Java总结——Java程序运行机制

Java语言比较特殊,它既是编译型语言,又是解释型语言。它要经过先编译,再解释两个步骤。什么是编译型?什么是解释型?

2019-01-10 13:35:54 236

原创 Java开发环境配置

在开发Java之前,我们首先需要在自己的计算机上配置好开发环境。本次教程用的jdk版本为jdk1.8操作系统为win10安装之前先检查一下自己的计算机是否已经配置了环境变量,win+r—>cmd---->java提示:‘java’ 不是内部或外部命令,也不是可运行的程序或批处理文件。说明没有配置环境1.下载jdk根据自己的需要,先从官网下载对应的jdk。点击此链接进入......

2019-01-08 11:53:51 641

原创 Java简介

Java简介简单来讲,Java就是一种面向对象的编程语言。1995年,Java由Sun公司推出。Java语言吸收了c++语言的各种优点,又摒弃了c++里难以理解的多继承、指针等概念。因此,Java语言有功能强大和简单易用两个特征。

2019-01-08 11:51:50 172

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除