- 博客(15)
- 收藏
- 关注
原创 Spark初识(学习总结一)
一、什么是spark官网在此Apache Spark™是用于大规模数据处理的统一分析引擎。美国加州大学伯克利分校AMP实验室开发的大数据处理框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目。Spark可以用R语言、Java、Scala和python进行编写。使用R语言编写占到极少数,python编写spark效率不及Java和Scala,Ja...
2019-03-20 21:13:49 949
原创 Flume Agent 内部原理
SourceSource是Flume的数据来源,来源的类型多样化,可以是监听一个文件的变化、一个文件夹的变化,可以是接收JMS消息,或者是监听一个网络端口等。Source至少要连接一个Channel,但是Event写入Channel不是由Source来完成的,每个Source都有自己的Channel处理器,Source每次写Event到Channel时,都由Channel处理器来完成。1、S...
2019-03-14 19:46:58 778
原创 Flume简介
1、什么是flumeflume 是由 cloudera 软件公司产出的可分布式日志收集系统,后与 2009 年被捐赠了 apache 软件基金会, 为hadoop 相关组件之一。Flume 是一种分布式 , 可靠且可用的服务 , 用于高效地收集 , 汇总和移动大量日志数据 。 它具有基于流式数据流的简单而灵活的架构 。 它具有可靠的可靠性机制以及许多故障转移和恢复机制 , 具有强大...
2019-03-14 11:01:13 5536
原创 HBase查询机制--Region定位
旧版本:region是HBase架构的关键,大部分的工作都围绕着region展开。在0.96.0版本之前,region的查询通过三层架构来定位:Region:就是所需要查询的数据具体所在的Region.META. :元数据表,存储了所有region的简要信息。.META.表中的一行记录就是一个Region,该行记录了该Region的起始行,结束行,和该Region的连接信息,这样客户端就可以...
2019-03-12 19:44:59 3562
原创 Nginx安装部署
上一章简单介绍了Nginx基本概念,和正反向代理模式的特点。现在我们在Linux上安装部署Nginx前提条件:安装好jdk、tomcat正式安装1.下载wget工具[root@hadoop ~]# yum install wget -y2、下载nginx安装包[root@hadoop ~]# wget http://nginx.org/download/nginx-1.6.2.ta...
2019-03-11 21:05:11 341
原创 Nginx简介
什么是Nginx?Nginx是一款自由的、开源的、高性能的HTTP服务器和反向代理服务器;同时也是一个IMAP、POP3、SMTP代理服务器;Nginx可以作为一个HTTP服务器进行网站的发布处理,另外Nginx可以作为反向代理进行负载均衡的实现。Nginx同Apache一样都是一种WEB服务器。基于REST架构风格,以统一资源描述符(Uniform Resources Identifier)...
2019-03-11 20:55:57 278
原创 HBase中设计MemStore的原因
MemStore数据被写入WAL之后就会被加载到MemStore中去。MemStore的大小增加到超过一定阀值的时候就会被刷写到HDFS上,以HFile的形式被持久化起来设计MemStore的原因:1.由于HDFS上的文件不可修改,为了让数据顺序存储从而提高读取效率,HBase使用了LSM树结构来存储数据。数据会先在Memstore中整理成LSM树,最后再刷写到HFile上。2.优化数据...
2019-03-10 20:01:54 491
转载 LSM树设计原理详解
代表数据库:nessDB、leveldb、hbase等核心思想的核心就是放弃部分读能力,换取写入的最大化能力。LSM Tree ,这个概念就是结构化合并树的意思,它的核心思路其实非常简单,就是假定内存足够大,因此不需要每次有数据更新就必须将数据写入到磁盘中,而可以先将最新的数据驻留在内存中,等到积累到最后多之后,再使用归并排序的方式将内存内的数据合并追加到磁盘队尾(因为所有待排序的树都是有序的,...
2019-03-10 19:50:57 4389
原创 HBase预写日志WAL机制
预写日志(Write-ahead log,WAL)最重要的作用是灾难恢复,一旦服务器崩溃,通过重放log,我们可以恢复崩溃之前的数据。如果写入WAL失败,整个操作也将认为失败。从上图看:1 客户端对数据执行一个修改操作,如put(),delete(),incr()等。2 每一个修改被封装到一个KeyValue对象实例,并通过RPC调用发送出来。3 上述调用成批地发送给含有匹配regio...
2019-03-10 17:28:17 5061
原创 深入理解HBase存储结构
HBASE是一个高可靠性、高性能、面向列、可伸缩、实时读取的分布式存储系统数据库,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase介于nosql(非关系型数据库)和RDBMS(关系型数据库管理系统)之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的...
2019-03-10 17:11:27 13948
原创 HBase初识(简介)
1.什么是HBase2.HBase产生背景3.HBase和传统数据库的对比4.HBase优缺点5.HBase适用场景6.HBase的优势
2019-03-10 16:26:52 264
原创 HBase系统架构(部署架构)
简单了解了HBase的基本概念之后,在接下来的安装部署HBase之前,首先要对HBase的体系结构进行了解。ClientHBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信对于管理类操作,Client与HMaster进行RPC;对于数据读写类操作,Client与HRegionServer进行RPCZookeeperHBase整体十分依...
2019-03-10 16:07:13 960
翻译 Java总结——Java程序运行机制
Java语言比较特殊,它既是编译型语言,又是解释型语言。它要经过先编译,再解释两个步骤。什么是编译型?什么是解释型?
2019-01-10 13:35:54 236
原创 Java开发环境配置
在开发Java之前,我们首先需要在自己的计算机上配置好开发环境。本次教程用的jdk版本为jdk1.8操作系统为win10安装之前先检查一下自己的计算机是否已经配置了环境变量,win+r—>cmd---->java提示:‘java’ 不是内部或外部命令,也不是可运行的程序或批处理文件。说明没有配置环境1.下载jdk根据自己的需要,先从官网下载对应的jdk。点击此链接进入......
2019-01-08 11:53:51 641
原创 Java简介
Java简介简单来讲,Java就是一种面向对象的编程语言。1995年,Java由Sun公司推出。Java语言吸收了c++语言的各种优点,又摒弃了c++里难以理解的多继承、指针等概念。因此,Java语言有功能强大和简单易用两个特征。
2019-01-08 11:51:50 172
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人